데이터

최근 편집: 2023년 4월 3일 (월) 14:43
공부용계정 (토론 | 기여)님의 2023년 4월 3일 (월) 14:43 판

자료(資料, data, 데이터, 문화어: 데타)는 문자, 숫자, 소리, 그림, 영상, 단어 등의 형태로 된 의미 단위이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 된다. 자료(data)와 정보(information)는 서로 교환되어 사용하는 경우가 많다. 하지만 자료와 정보의 의미는 다르다.

변수의 유형

명목형

명목형 변수는 명목척도에 따라 구분되는 변수로, 각각의 조사단위가 어떤 속성을 지니는지 또는 어떤 범주에 속하는지에 따라 분류하는 것을 말한다. 인종, 성별, 머리색, 종교 등이 해당한다. 각 구분에 대해 임의의 숫자를 일대일로 대응시켜 표현할 수 있는데 이때 할당되는 숫자는 숫자 자체로 의미하는 바가 없다.[1]:34

성별 변수의 경우 남성을 1, 여성을 2로 할당하는 남성중심적인 관례가 있다. 또한 성별 변수에서 간성논바이너리가 배제되는 것은 매우 흔하다.

순서형

순서척도(서열척도)에 따라 구분되는 변수로, 어떤 특성을 얼마나 강하게 지니고 있는가를 나타내는 변수이다. 선호도, 찬반의 정도, 학력 등이 해당한다.[1]:34

연속형

구간형

구간척도에 따라 측정되는 변수로, 두 값 사이의 차이는 의미가 있으나 두 값 사이의 비율은 의미가 없는 경우이다. 온도나 지능지수, 감성지수 등이 해당한다.[1]:35

비율형

비율척도에 따라 측정되는 변수로, 구간척도와 거의 비슷하나 절댓값 0을 지정할 수 있다. 체중, 결근자 수, 방문객 수 등이 해당한다.[1]:35

분석

데이터 분석에는 다음과 같은 절차가 필요하다.

  1. 문제의 정의
  2. 조사와 실험의 계획: 연구의 목적이 명확하게 정의되면 달성할 수 있는 실험을 계획한다.[1]
  3. 데이터의 수집: 구체적인 조사와 실험이 계획되면 이에 따라 데이터를 수집한다.[1]
  4. 데이터의 정리와 분석
  5. 분석결과의 평가

입력

부호화

데이터 부호화는 다른 말로 코딩(coding)이라고도 한다. 수집된 응답 결과나 관측 결과 등을 통계적으로 분석할 수 있도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정을 일컫는다.[1]

출처

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 이정진; 김성수; 이기재 (2017). 《데이터정보처리입문》 2개정판. 한국방송통신대학교출판문화원.