Elastic Net-개요, 기하학 및 정규화

Elastic net linear regression은 회귀 모델을 정규화하기 위해 lasso 및 ridge 기술 모두의 패널티를 사용합니다. 이 기술은 최소 절대 수축 및 선택 연산자의 약자 인 올가미 LASSO LASSO를 결합한 것으로, 통계적 모델의 정규화를 개선하기 위해 단점에서 학습하여 기능 선택 및 정규화 및 능선 회귀 방법을 주 목적으로하는 통계 공식입니다.

탄성 망

elastic net 방법은 lasso의 한계를 개선합니다. 즉, lasso가 고차원 데이터에 대해 몇 개의 샘플을 취하는 경우 elastic net 절차는 포화 될 때까지 "n"개의 변수를 포함합니다. 변수가 상관 관계가 높은 그룹 인 경우 올가미는 이러한 그룹에서 하나의 변수를 선택하고 나머지는 완전히 무시하는 경향이 있습니다.

올가미에서 발견되는 한계를 없애기 위해 탄성 망은 페널티에 2 차 표현식 (|| β || 2)을 포함하며,이 표현은 단독으로 사용하면 능선 회귀가됩니다. 페널티의 2 차 표현식은 손실 함수를 볼록한쪽으로 올립니다. 탄력적 그물은 두 세계의 장점 인 올가미 회귀와 능선 회귀를 사용합니다.

Elastic net 방법의 추정량을 찾는 절차에는 올가미 및 회귀 기법을 모두 포함하는 두 단계가 있습니다. 먼저 능선 회귀 계수를 찾은 다음 올가미 종류의 계수 수축을 사용하여 두 번째 단계를 수행합니다.

따라서이 방법은 두 가지 수축 유형의 계수를 적용합니다. 순진한 탄성 네트 버전의 이중 수축으로 인해 예측 가능성이 낮고 편향이 높습니다. 이러한 효과를 수정하기 위해 계수는 (1 + λ 2 ) 를 곱하여 재조정됩니다 .

요약

  • Elastic net 방법은 변수 선택과 정규화를 동시에 수행합니다.
  • Elastic Net 기법은 차원 데이터가 사용 된 샘플 수보다 큰 경우 가장 적합합니다.
  • 그룹화 및 변수 선택은 Elastic Net 기법의 핵심 역할입니다.

Elastic Net 기하학

데카르트 평면에 플로팅 할 때 탄성 그물은 능선과 올가미 회귀 플롯 사이에 있습니다. 두 회귀 방법의 조합이기 때문입니다. 탄성 그물에 대한 플롯은 또한 정점에서 특이성을 나타내며, 이는 희소성에 중요합니다. 또한 볼록도가 α 값에 따라 달라지는 엄격한 볼록 모서리를 나타냅니다.

볼록성은 또한 상관 관계에 따른 그룹화 효과에 따라 달라집니다. 상관 관계 상관 관계는 두 변수 간의 관계를 통계적으로 측정 한 것입니다. 측정 값은 서로 간의 선형 관계를 보여주는 변수에서 가장 잘 사용됩니다. 데이터의 적합도는 산점도에서 시각적으로 표현할 수 있습니다. 선택한 변수의 변수의 상관 관계가 높을수록 그룹화 효과가 높아져 표본에 포함 된 변수의 수가 많아집니다.

변수 선택

모델 구축에는 예측 변수의 하위 집합을 형성하기 위해 변수 선택이 필요합니다. Elastic net은 p >> n 문제 접근 방식을 사용하는데, 이는 예측 변수의 수가 모델에 사용 된 샘플 수보다 많다는 것을 의미합니다. Elastic net은 변수가 상관 관계가 높은 독립 변수를 포함하는 그룹을 형성 할 때 적합합니다. 독립 변수 독립 변수는 종속 변수 (결과)에 미치는 영향을 평가하기 위해 변경되는 입력, 가정 또는 동인입니다. .

정확성을 높이기 위해 변수 선택이 모델 구축 절차에 통합됩니다. 변수 그룹의 상관 관계가 높고 변수 중 하나가 샘플로 선택되는 경우 전체 그룹이 자동으로 샘플에 포함됩니다.

CATREG 법인

CATREG는 선형 및 비선형 변수 변환을 용이하게하는 알고리즘입니다. 이 알고리즘은 비선형 변환에서 비단 조 또는 단조로 변수를 변환 할 때 단계 및 스플라인 함수를 사용합니다. CATREG는 변수를 기본 함수 나 더미 변수로 먼저 확장 할 필요없이 비단 조적으로 변수를 동시에 변환하고 정규화 할 수 있습니다.

탄력적 순 손실 함수는 일반 최소 제곱 회귀 손실 함수의 제약 유형이라고도합니다. CATREG 알고리즘은 Elastic Net에 통합되어 결과 알고리즘의 효율성과 단순성을 향상시킵니다. 이에 비해 탄성 그물은 올가미보다 성능이 뛰어나며 효율성과 단순성 측면에서 능선 회귀보다 성능이 뛰어납니다.

Elastic Net 정규화

정규화 절차 동안 패널티 의 l 1 섹션은 희소 모델을 형성합니다. 반면, 패널티의 2 차 섹션은 정규화 경로에서 l 1 부분을보다 안정적으로 만들고 선택할 변수의 수량 제한을 제거하며 그룹화 효과를 촉진합니다.

그룹화 효과는 상관 관계를 사용하여 변수를 쉽게 식별하는 데 도움이됩니다. 이는 샘플링 절차를 향상시킵니다. 또한 하나의 변수가 상관 관계가 높은 그룹에서 샘플링 될 때 해당 그룹의 다른 모든 변수가 자동으로 샘플에 추가되기 때문에 선택한 변수의 수도 증가합니다.

유효 자유도

유효 자유도는 모델의 복잡성을 측정합니다. 자유도는 모델 피팅의 추정 또는 정확한 예측 중에 중요합니다. 자유도는 선형 스무더 학습에도 통합됩니다. l 1 패널티 와 관련된 모든 방법 에서 모델의 비선형 특성으로 인해 분석에 문제가 발생합니다.

Elastic net은 스파 스 PCA와 같은 다른 애플리케이션에서도 사용할 수 있으며, 스파 스 로딩에 의해 수정되는 주요 구성 요소를 얻습니다. 다른 애플리케이션은 커널 탄력적 네트워크에 있으며, 여기서 클래스 커널 머신의 생성은 지원 벡터와 함께 발생합니다.

추가 자료

금융은 CBCA (Certified Banking & Credit Analyst) ™ CBCA ™ 인증을 제공합니다. CBCA (Certified Banking & Credit Analyst) ™ 인증은 금융, 회계, 신용 분석, 현금 흐름 분석, 약정 모델링, 대출을 다루는 신용 분석가를위한 글로벌 표준입니다. 상환 등. 경력을 다음 단계로 끌어 올리려는 사람들을위한 인증 프로그램입니다. 지식 기반을 계속 배우고 개발하려면 아래의 추가 관련 재무 리소스를 살펴보세요.

  • 의사 결정 트리 의사 결정 트리 의사 결정 트리는 가능한 결과, 리소스 비용, 유틸리티 및 가능한 결과를 모델링하는 트리와 유사한 구조의 지원 도구입니다.
  • 종속 변수 종속 변수 종속 변수는 독립 변수라고하는 다른 변수의 값에 따라 변경되는 변수입니다.
  • 다중 선형 회귀 다중 선형 회귀 다중 선형 회귀는 독립 변수의 값을 기반으로 종속 변수의 결과를 예측하는 데 사용되는 통계 기법을 말합니다.
  • Overfitting Overfitting Overfitting은 함수가 특정 데이터 집합에 너무 가깝게 대응할 때 발생하는 모델링 오류를 나타내는 통계에서 사용되는 용어입니다.

최근 게시물