데이터

최근 편집: 2023년 5월 12일 (금) 14:24

자료(資料, data, 데이터, 문화어: 데타)는 문자, 숫자, 소리, 그림, 영상, 단어 등의 형태로 된 의미 단위이다. 보통 연구나 조사 등의 바탕이 되는 재료를 말하며, 자료를 의미있게 정리하면 정보가 된다. 자료(data)와 정보(information)는 서로 교환되어 사용하는 경우가 많다. 하지만 자료와 정보의 의미는 다르다.

통계에서 데이터는 관찰값과 다른 의미를 지니는데, 예를 들어 “페미위키의 문서 수는 2만 개이고 페미위키의 상징색은 보라색이다”라고 할 때 페미위키는 관측되는 개별 대상이므로 유닛, ‘문서 수’나 ‘상징색’은 변수, 2만 개 또는 보라색은 관찰값, 이와 같이 복수의 변수에 대한 관찰값의 모음은 데이터라고 한다.

유형

질적 데이터

질적 데이터(qualitative data)는 명목척도나 순서척도에 의해 측정된 데이터로, 범주형 데이터(categorical data) 또는 이산형 데이터(discrete data)라고도 한다.[1]:36

양적 데이터

양적 데이터(quantitative dat)는 연속형 데이터(continuous data)는 구간척도나 비율척도로 측정된 데이터를 말한다.[1]:36

변수의 유형

명목형

명목형 변수는 명목척도에 따라 구분되는 변수로, 각각의 조사단위가 어떤 속성을 지니는지 또는 어떤 범주에 속하는지에 따라 분류하는 것을 말한다. 인종, 성별, 머리색, 종교 등이 해당한다. 각 구분에 대해 임의의 숫자를 일대일로 대응시켜 표현할 수 있는데 이때 할당되는 숫자는 숫자 자체로 의미하는 바가 없다.[1]:34

성별 변수의 경우 남성을 1, 여성을 2로 할당하는 남성중심적인 관례가 있다. 또한 성별 변수에서 간성논바이너리가 배제되는 것은 매우 흔하다.

순서형

순서척도(서열척도)에 따라 구분되는 변수로, 어떤 특성을 얼마나 강하게 지니고 있는가를 나타내는 변수이다. 선호도, 찬반의 정도, 학력 등이 해당한다.[1]:34

연속형

구간형

구간척도에 따라 측정되는 변수로, 두 값 사이의 차이는 의미가 있으나 두 값 사이의 비율은 의미가 없는 경우이다. 온도나 지능지수, 감성지수 등이 해당한다.[1]:35

비율형

비율척도에 따라 측정되는 변수로, 구간척도와 거의 비슷하나 절댓값 0을 지정할 수 있다. 체중, 결근자 수, 방문객 수 등이 해당한다.[1]:35

분석

데이터 분석에는 다음과 같은 절차가 필요하다.

  1. 문제의 정의
  2. 조사와 실험의 계획: 연구의 목적이 명확하게 정의되면 달성할 수 있는 실험을 계획한다.[1]
  3. 데이터의 수집: 구체적인 조사와 실험이 계획되면 이에 따라 데이터를 수집한다.[1]
  4. 데이터의 정리와 분석
  5. 분석결과의 평가

입력

부호화

데이터 부호화는 다른 말로 코딩(coding)이라고도 한다. 수집된 응답 결과나 관측 결과 등을 통계적으로 분석할 수 있도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정을 일컫는다.[1]

정리

기술통계량

그래프나 도표의 해석상 단점을 보완하는 측도로, 연속형 데이터의 특성을 객관적으로 나타내고 자료의 전반적인 형태를 나타낼 수 있다.[1]:69

중심위치 측도

평균
가장 많이 사용되는 중심위치 측도로, 관측한 자료 값의 총합을 관측한 자료의 수로 나눈 수치다. 특이값의 영향을 많이 받는 편이다.
절사평균
특정 비율에 해당하는 양쪽 특이값을 절사하고 남은 자료에서 구한 평균. 특이값의 영향을 적게 받는다. 스포츠 심판에서 자주 사용되는 방식으로, 선수에 대한 악감정이나 편애를 가진 심판의 판정을 배제하는 효과가 있다.
중앙값
자료를 크기순으로 나열할 때 중앙에 놓이는 값이다. 자료의 수가 짝수인 경우 중앙에 놓이는 두 개의 값의 평균으로 계산한다.
최빈값
자료 중 가장 빈도가 많은 값을 말한다. 이산형 자료의 경우 도수분포표만 살펴봐도 쉽게 구할 수 있다. 다양한 값을 가지는 데이터를 분석할 때 정확하게 일치하는 자료의 개수만을 세어 최빈값을 측정할 경우 순전히 우연에 기대는 효과가 있어 해당 자료를 대표한다고 볼 수 없기 때문에, 계급구간을 산정하여 최빈계급구간의 중간값을 최빈값으로 정의하기도 한다.

산포도 측도

자료가 흩어진 정도를 수치로 측정하는 측도.

분산
각 자료와 평균 사이의 거리를 제곱한 값의 평균이다.
표본분산은 으로 표기한다. 표본분산은 다음과 같이 구한다.
분자가 이어야 모분산과 같아지므로 표본분산을 구할 때에는 이 아닌 로 나눠준다.
표준편차
분산의 제곱근. 표본표준편차는 로 표기한다.
변이계수
변동계수라고도 하며 표준편차를 평균으로 나눈 측도이다. 자료의 개수나 측정단위가 다른 두 개 이상의 자료에 대한 분산이나 표준편차를 비교하는 것이 무의미한 점을 보완한다.
범위
범위는 자료의 최댓값에서 최솟값을 뺀 수치로 극단점(특이점)이 있을 경우 산포도 측도로서의 기능이 떨어진다.
사분위수범위(IQR: interquartile range)
범위의 단점을 보완한 측도로, 제3사분위수에서 제1사분위수를 뺀 값이다.

출처

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 이정진; 김성수; 이기재 (2017). 《데이터정보처리입문》 2개정판. 한국방송통신대학교출판문화원.