선형 회귀

최근 편집: 2023년 3월 30일 (목) 10:19
독립변수 1개와 종속변수 1개를 가진 선형 회귀의 예.

선형 회귀(영어: Linear Regression)는 알려진 다른 관련 데이터 값을 사용하여, 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법이다. 알 수 없는 변수(또는 종속 변수)와 알려진 변수(또는 독립 변수)를 선형 방정식으로 모델링하기 때문에 선형 회귀라 한다.[1]

예를 들어, 작년의 지출 및 수입에 대한 데이터가 있다고 가정해 보자. 선형 회귀 기법은 이 데이터를 분석하여 지출이 수입의 절반인지 확인한다. 그런 다음 미래의 알려진 소득을 절반으로 줄여 알려지지 않은 미래 비용을 계산한다.[1]

설계

선형 회귀는 주어진 데이터 집합 에 대해, 종속 변수 yi와 p개의 설명 변수 xi 사이의 선형 관계를 모델링한다. 모델은 다음과 같은 형태를 갖는다.

주어진 식에서 는 각 독립변수의 계수이며, 는 선형 회귀로 추정되는 모수의 개수이다. T는 전치를 의미하고, xiTβxiβ의 내적을 의미한다. 오차항, 오차 변수로, 관찰되지 않은 확률 변수이며, 종속 변수와 독립 변수 사이에 오차를 의미한다.

이것이 선형 회귀라 불리는 것은, 종속변수가 독립변수에 대해 선형 함수(1차 함수)의 관계에 있을 것이라 가정하기 때문이다. 그러나 의 그래프가 직선이고 의 선형 함수일 것이라고 생각하는 것은 잘못이다. 예를 들어 다음과 같은 "선형 회귀"도 있기 때문이다. 에 관해 선형이기 때문에, x축과 y축을 가진 그래프가 직선상에 있지 않더라도 선형회귀라고 할 수 있다.

이 식은 벡터 형식으로 표현하면 다음과 같이 표현할 수 있다.

이 식에서 각 항의 의미는 다음과 같다.

몇 가지 중요한 용어를 확인하고 넘어가자.

  • 응답 변수, 종속 변수라 불린다. 어떤 변수가 종속 변수가 되고, 어떤 변수가 독립 변수가 되는지는, 어떤 변수가 무엇에 직간접적으로 영향을 주느냐에 대한 가정을 따른다. 한편, 목적에 따라서는 의존 관계에 대한 뚜렷한 이유없이 한 변수가 다른 변수에 종속하는 것으로 가정하고 선형 회귀 분석을 하기도 한다.
  • 입력 변수, 예측 변수, 독립 변수라 불린다. 독립 확률 변수와는 다르다. 행렬 는 설계 행렬이라 불리기도 한다.
    • 일반적으로 입력 변수에 상수가 포함된다. 예를 들어, xi1를 상수로 택한다 ( = 1 i = 1, ..., n) xi1 앞에 붙는 상수 β를 절편이라 부른다. 많은 선형 통계 모델에서 절편이 필요하며, 실질적으로 절편이 0인 경우에도 이를 포함해 모델링한다.
    • 때로 독립 변수는 다른 독립 변수 또는 데이터에 대해 비선형 함수이기도 하다. 이러한 경우에도 이 독립 변수가 파라미터 벡터 β에 대해서만 선형이기만 하면 여전히 선형 모델이라 부른다.
    • 독립 변수 xij는 확률 변수로 생각할 수도 있고, 또는 고정된 값으로 생각할 수도 있다. 경우에 따라 두 가지 중에 적합한 것을 선택해야 하지만, 두 가지 모두 같은 추정 과정을 거친다. 하지만 각각의 경우에서 해석은 다르다.
  • p차원 파라미터 벡터이다. 이것의 각 원소는 회귀 계수라고 불리기도 한다. 파라미터 벡터의 원소는 종속 변수에 대한 편미분으로 해석할 수도 있다.
  • 오차항, 노이즈이다. 이 변수는 종속 변수 yi에 대한 모든 오차 요인을 포함한다.

예제

작은 공을 던져 올리고, 그것의 높이 hi를 시간 ti에서 측정한다고 하자. 이를 수식으로 표현하면 다음과 같다.

선형 회귀 기법의 하나인 이차 다항식 회귀 예제

이 식에서 β1는 공의 초기 속도이며, β2는 중력에 비례하는 계수이다. εi는 측정 오차를 의미한다. 선형 회귀는 측정한 데이터를 사용해 β1β2를 추정할 때 사용할 수 있다. 이렇게 세워진 모델은 시간 변수에 대해서는 비선형이지만, 파라미터 β1β2에 대해서는 선형이다. 만약 독립 변수를 다음과 같이 표현하면, xi = (xi1, xi2)  = (ti, ti2), 식을 다음과 같이 쓸 수 있다.

가정

표준 선형 회귀 분석 모델에서는 예측 변수, 응답 변수 그리고 그 사이의 관계에 대해 다양한 가정을 한다. 확장된 선형 회귀 분석에서는 이러한 가정을 완화하기도 하고, 때로는 가정을 제거하기도 한다. 일반적으로 확장된 선형 회귀는 추정 과정을 더 복잡하게 하거나 시간을 더 많이 소모한다. 정확한 모델을 세우기 위해 더 많은 데이터가 요구하기도 한다. 표준 선형 회귀에서의 대표적인 가정들은 다음과 같다.

약한 외생성

설명 변수 x를 확률 변수가 아니라, 고정된 값으로 취급한다. 이는 설명 변수가 에러가 없음을 의미한다. 측정 오차로 인해 설명 변수가 오염되지 않았음을 가정하는 것과 같다. 이러한 가정이 현실적이지 않지만, 이 가정을 제외하면 설명 변수에 오차를 포함한 모델을 세워야 한다.

선형성

응답 변수가 예측 변수와 선형 회귀 계수의 선형 조합으로 표현 가능함을 의미한다. 이는 생각보다 까다롭지 않은 가정인데, 이것은 파라미터에 대한 선형성만 가정하기 때문이다. 예측 변수는 임의로 변형될 수도 있고, 동일한 예측 변수가 더해질 수도 있고, 하나를 다르게 변형할 수도 있다. 이러한 기법이 실제로 다항 회귀에 사용된다. 응답 변수를 예측 변수에 대한 임의의 다항 함수로 모델링한다. 이는 선형 회귀를 매우 강력하게 만든다. 실제로 이러한 다항 회귀는 때로 너무 강력해서, 모델이 데이터에 과적합(overfit)하게 되기도 한다. 이를 방지하기 위해 일종의 정규화 기법을 사용할 수도 있다. 이를 적용한 예로는 능형 회귀분석(ridge regression) 또는 Lasso 회귀 등이 있다. 베이지안 선형 회귀 또한 사용할 수 있는데, 베이지안 선형 회귀는 근본적으로 과적합을 방지하는 효과를 갖는다.

상수 분산

상수 분산은 동분산성이라고도 한다.

이는 서로 다른 응답 변수들의 오차가 설명 변수와 무관하게 항상 같은 분산을 가짐을 의미한다. 실제로는 이러한 가정은 타당하지 않다. 응답 변수들의 오차가 같은 분산을 갖지 않으며, 오차의 분산은 설명 변수에 영향을 받는다.

오차의 독립성

독립 변수의 오차가 서로 무관함을 가정한다. 일부 선형 회귀 기법은 상관된 오차를 다룰 수 있지만, 정규화가 적용되지 않은 상황에서는 더 많은 데이터를 필요로 한다. 베이지안 선형 회귀가 이러한 문제를 다루는 일반적인 기법이다.

예측 변수에서의 다중공선성의 부재

표준 최소제곱법 추정 기법에서, 설계 행렬 X는 반드시 전열계수 p를 갖는다. 그렇지 않으면, 예측 변수 사이에 다중공선성이 생긴다. 이는 두 개 이상의 상관된 예측 변수로 인해 발생한다. 또한, 추정하고자 하는 파라미터에 비해 데이터가 너무 적어도 발생할 수 있다. 다중공선성이 발생하면, 파라미터 벡터 β는 유일한 해를 갖지 않게 된다. 다중공선성이 있는 상황에서도 선형 회귀 모델을 만들 수 있는 기법이 개발되긴 했으나, 몇 가지 추가적인 가정이 필요하다.

해석

앙콤 집합은 동일한 선형 회귀식을 갖지만, 그것의 데이터는 매우 다른 양상을 보인다.

예측 변수에 대한 모든 값이 주어졌을 때, 수립한 선형 회귀 모델을 사용해 예측 변수 xj가 응답 변수 y에 미치는 영향을 확인할 수 있다. βjxj가 한 단위 변했을 때, y의 기대 변화량을 의미한다. 이는 때로 y에 대한 xj고유 영향이라 불리기도 한다. 반면에, y에 대한 xj의 한계 효과는 xjy 사이의 Pearson 상관 계수 또는 선형 회귀를 사용해 평가할 수 있다. 회귀 결과를 해석할 때 주의해야 하는데, 일부 독립 변수가 응답 변수의 변화에 영향을 주지 않을 수 있기 때문이다 (무의미한 독립 변수일 수도 있고, y 절편에 해당할 수도 있기 때문이다.) 회귀 결과를 해석할 때 주의해야 하는데, 한계 효과가 큰 상황에서도 고유 영향은 적을 수 있기 때문이다. 반면에 한계 효과는 적은데 고유 영향이 큰 상황이 있을 수도 있다. 아주 복잡하게 서로 연계되어 있는 시스템을 분석하는 상황에서 고유 효과는 매우 중요한 역할을 한다. 경우에 따라 이는 예측 변수에 영향을 주기도 한다. 하지만, 많은 경우에 다중 선형 회귀는 응답 변수와 예측 변수 사이의 관계를 밝히는 것에 실패한다. 공통점 분석은 이러한 상관 관계를 해석하는 것에 도움을 준다.

오차

선형 회귀 모델에서 도출된 값과 실제의 값은 보통 오차가 있을 수밖에 없다. 선형 회귀 모델의 목표는 모든 데이터로부터 나타나는 오차의 평균을 최소화할 수 있는 최적의 기울기와 절편을 찾는 것이다.[2]

선과 실제 데이터 사이에 얼마나 오차가 있는지 구하려면 양수, 음수 관계 없이 동일하게 반영되도록 모든 손실에 제곱을 해주는 게 좋다. 이런 방식으로 손실을 구하는 걸 평균 제곱 오차(mean squared error, 이하 MSE)라고 부른다. 손실을 구할 때 가장 널리 쓰이는 방법이다.[2]

손실을 구하는 이 외의 방법으로는 MSE처럼 제곱하지 않고 그냥 절대값으로만 바로 평균을 구하는 평균 절대 오차(mean absolute error, 이하 MAE), MSE와 MAE를 절충한 후버 손실(Huber loss), 1−MSE/VAR으로 구하는 결정 계수(coefficient of determination) 등이 있다.[2]

활용

선형 회귀는 확립된 통계 기법이며 소프트웨어 및 컴퓨팅에 쉽게 적용된다.[1] 비교적 간단하고, 예측을 생성하기 위한 해석하기 쉬운 수학 공식을 제공한다.[1]

기업은 이를 사용하여 안정적이고 예측 가능한 방식으로 원시 데이터를 비즈니스 인텔리전스와 실행 가능한 인사이트로 변환한다. 생물학, 행동과학, 환경과학, 사회과학 등 많은 분야의 학자가 선형 회귀를 사용하여 예비 데이터 분석을 수행하고 미래 추세를 예측한다.[1]

기계 학습인공 지능과 같은 많은 데이터 과학 방법에서 선형 회귀를 사용하여 복잡한 문제를 해결한다.[1]

출처

  1. 1.0 1.1 1.2 1.3 1.4 1.5 “선형 회귀란 무엇인가요? - 선형 회귀 모델 설명 - AWS”. 2023년 3월 30일에 확인함. 
  2. 2.0 2.1 2.2 “선형회귀(Linear Regression) 쉽게 이해하기”. 《아무튼 워라밸》. 2023년 3월 30일에 확인함.