VIF (Variance Inflation Factor)-개요, 공식, 용도

VIF (Variance Inflation Factor)는 회귀 분석에서 다중 공선 성의 심각도를 측정합니다. 회귀 분석 회귀 분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 추정하는 데 사용되는 통계 방법 세트입니다. 변수 간 ​​관계의 강도를 평가하고 변수 간의 미래 관계를 모델링하는 데 사용할 수 있습니다. . 공선 성의 결과로 회귀 계수의 분산 증가를 나타내는 통계 개념입니다.

분산 인플레이션 계수

요약

  • VIF (Variance Inflation Factor)는 일반 최소 제곱 (OLS) 회귀 분석에서 다중 공선 성의 심각도를 감지하는 데 사용됩니다.
  • 다중 공선 성은 분산 및 유형 II 오류를 부풀립니다. 그것은 변수의 계수를 일관되지만 신뢰할 수 없게 만듭니다.
  • VIF는 다중 공선 성으로 인한 부풀려진 분산의 수를 측정합니다.

분산 팽창 계수 및 다중 공선 성

일반 최소 제곱 (OLS) 회귀 분석에서 두 개 이상의 독립 변수가있을 때 다중 공선 성이 존재합니다. 독립 변수 독립 변수는 종속 변수 (결과)에 대한 영향을 평가하기 위해 변경되는 입력, 가정 또는 동인입니다. . 그들 사이의 선형 관계를 보여줍니다. 예를 들어 회귀 모델에서 회사 규모 및 수익과 주가의 관계를 분석하려면 시가 총액과 수익이 독립 변수입니다.

회사의 시가 총액 시가 총액 시가 총액 (Market Cap)은 회사 발행 주식의 가장 최근 시가입니다. 시가 총액은 현재 주가에 발행 주식 수를 곱한 값과 같습니다. 투자 커뮤니티는 종종 시가 총액을 사용하여 회사 순위를 매기고 총 수익은 밀접한 상관 관계가 있습니다. 회사가 수익을 올릴수록 규모도 커집니다. OLS 회귀 분석에서 다중 공선 성 문제가 발생합니다. 회귀 모델의 독립 변수가 완벽하게 예측 가능한 선형 관계를 나타내는 경우이를 완전 다중 공선 성이라고합니다.

다중 공선 성을 사용하면 회귀 계수가 여전히 일관되지만 표준 오류가 부풀려지기 때문에 더 이상 신뢰할 수 없습니다. 이는 모델의 예측력이 감소하지 않지만 계수가 제 2 종 오류로 통계적으로 유의하지 않을 수 있음을 의미합니다. 제 2 종 오류 통계 가설 검정에서 제 2 종 오류는 가설 검정이 다음과 같은 귀무 가설을 기각하지 못하는 상황입니다. 거짓입니다. 다른.

따라서 변수 계수가 개별적으로 중요하지 않은 경우 (각각 t- 검정에서 기각 될 수 없음) F- 검정에서 기각 및 높은 결정 계수 (R2)와 함께 종속 변수의 분산을 공동으로 설명 할 수 있습니다. 다중 공선 성이 존재할 수 있습니다. 다중 공선 성을 감지하는 방법 중 하나입니다.

VIF는 회귀 모델에 다중 공선 성이 존재하는지 여부를 감지하는 데 일반적으로 사용되는 또 다른 도구입니다. 공선 성으로 인해 추정 된 회귀 계수의 분산 (또는 표준 오차)이 얼마나 부풀려 지는지를 측정합니다.

분산 인플레이션 계수 사용

VIF는 아래 공식으로 계산할 수 있습니다.

분산 인플레이션 계수-공식

여기서 R i 2 는 나머지 독립 변수에서 i 번째 독립 변수를 회귀하기위한 조정되지 않은 결정 계수를 나타냅니다. VIF의 역수를 공차 라고 합니다 . VIF 또는 공차를 사용하여 개인 선호도에 따라 다중 공선 성을 감지 할 수 있습니다.

R i 2가 0이면 나머지 독립 변수의 분산은 i 번째 독립 변수에서 예측할 수 없습니다. 따라서 VIF 또는 허용 오차가 1 일 때 i 번째 독립 변수는 나머지 변수와 상관 관계가 없습니다. 즉,이 회귀 모델에는 다중 공선 성이 존재하지 않습니다. 이 경우 i 번째 회귀 계수의 분산은 팽창되지 않습니다.

일반적으로 VIF가 4를 초과하거나 허용 오차가 0.25 미만이면 다중 공선 성이 존재할 수 있으며 추가 조사가 필요함을 나타냅니다. VIF가 10보다 높거나 공차가 0.1보다 낮 으면 수정해야하는 상당한 다중 공선 성이 있습니다.

그러나 높은 VFI를 다중 공선 성 문제없이 안전하게 무시할 수있는 상황도 있습니다. 다음은 이러한 세 가지 상황입니다.

1. 높은 VIF는 제어 변수에만 존재하지만 관심 변수에는 존재하지 않습니다. 이 경우 관심있는 변수는 서로 또는 제어 변수에 공 선적이지 않습니다. 회귀 계수는 영향을받지 않습니다.

2. 제품 또는 다른 변수의 거듭 제곱을 포함하여 높은 VIF가 발생하는 경우 다중 공선 성은 부정적인 영향을주지 않습니다. 예를 들어, 회귀 모델은 x와 x2를 독립 변수로 포함합니다.

3. 세 개 이상의 범주를 나타내는 더미 변수의 VIF가 높은 경우 다중 공선 성이 반드시 존재하는 것은 아닙니다. 범주 형 변수가 다른 변수와 상관 관계가 있는지 여부에 관계없이 범주에 케이스의 작은 부분이있는 경우 변수는 항상 높은 VIF를 갖습니다.

다중 공선 성 수정

다중 공선 성은 계수의 분산을 부풀려서 제 2 종 오류를 유발하므로이를 감지하고 수정하는 것이 필수적입니다. 다음과 같이 다중 공선 성을 수정하기 위해 간단하고 일반적으로 사용되는 두 가지 방법이 있습니다.

1. 첫 번째는 상관 관계가 높은 변수 중 하나 (또는 ​​그 이상)를 제거하는 것입니다. 변수가 제공하는 정보가 중복되므로 제거로 인해 결정 계수가 크게 손상되지 않습니다.

2. 두 번째 방법은 OLS 회귀 대신 주성분 분석 (PCA) 또는 부분 최소 제곱 회귀 (PLS)를 사용하는 것입니다. PLS 회귀는 변수를 상관 관계없이 더 작은 집합으로 줄일 수 있습니다. PCA에서 새로운 상관되지 않은 변수가 생성됩니다. 정보 손실을 최소화하고 모델의 예측 가능성을 향상시킵니다.

더 많은 리소스

Finance는 글로벌 인증 은행 및 신용 분석가 (CBCA) ™ CBCA ™ 인증의 공식 제공 업체입니다. 인증 은행 및 신용 분석가 (CBCA) ™ 인증은 금융, 회계, 신용 분석, 현금 흐름 분석을 다루는 신용 분석가를위한 글로벌 표준입니다. , 계약 모델링, 대출 상환 등. 누구나 세계적인 수준의 재무 분석가가 될 수 있도록 설계된 인증 프로그램입니다. 경력을 계속 발전 시키려면 아래의 추가 리소스가 유용 할 것입니다.

  • 금융의 기본 통계 개념 금융에 대한 기본 통계 개념 통계에 대한 확실한 이해는 금융을 더 잘 이해하는 데 매우 중요합니다. 또한 통계 개념은 투자자가
  • 예측 방법 예측 방법 최고 예측 방법. 이 기사에서는 재무 분석가가 미래 수익을 예측하는 데 사용하는 네 가지 유형의 수익 예측 방법을 설명합니다.
  • 다중 선형 회귀 다중 선형 회귀 다중 선형 회귀는 독립 변수의 값을 기반으로 종속 변수의 결과를 예측하는 데 사용되는 통계 기법을 말합니다.
  • 랜덤 변수 랜덤 변수 랜덤 변수 (확률 적 변수)는 특정 랜덤 현상의 결과에 따라 가능한 값이 달라지는 통계 변수의 한 유형입니다.

최근 게시물