2023.08.10 daily 공부 5 의사결정나무와 가지치기(pruning)

2023. 8. 10. 00:08카테고리 없음

의사결정나무의 형성 과정 중 끝마디가 너무 많을 경우. 모형이 과대 적합 되어 현실 문제에 적용할 수 있는 적절한 규칙이 나오지 않게 되는 문제가 발생한다. 따라서 분류된 관측치의 비율 또는 MSE 등을 고려하여 적절한 수준의 규칙을 제공해 주어야 한다. 이 규칙이 무엇인가?

 

의사결정나무(Decision Tree)

 

의사결정나무는 데이터를 기반으로 하여 여러 개의 의사 결정 규칙을 학습하고 트리 구조로 표현하는 지도 학습 알고리즘 중 하나입니다. 데이터를 분석하고 패턴을 발견하여 분류나 회귀 문제를 해결하는 데 사용됩니다.

 

의사결정나무는 분기와 결정으로 이루어진 트리 형태의 구조를 가지며, 각 분기는 특정 피처의 값을 기준으로 데이터를 분할합니다. 분기의 결과로서 해당 피처의 값을 기준으로 데이터를 분할합니다. 분기의 결과로서 해당 피처의 다른 값 또는 다른 피처의 값들로 이동하거나 결정 노드에 도달하게 됩니다. 결정 노드에서는 최종적으로 클래스 레이블이나 연속적인 수치 값이 예측됩니다.

 

의사결정나무는 데이터를 해석하기 쉽고 시각적으로 표현 가능한 장점을 가지고 있어 널리 사용되며, 다양한 분야에서 응용됩니다. 의사결정나무 알고리즘은 데이터를 기반으로 간단하고 직관적인 규칙을 학습하여 문제를 해결하는 강력한 도구 중 하나로, 데이터 분석 및 예측 과제에 유용하게 사용됩니다.

 

 

가지치기(pruning)

 

의사결정나무의 규칙을 결정할 떄 과대적합을 피하기 위해 사용하는 방법은 가지치기(Pruning) 입니다. 가지치기는 의사결정나무에서 생성된 너무 많은 끝마디를 제거하여 모델을 단순화하고 일반화하는 과정입니다. 이를 통해 불필요한 분기를 제거하여 모델의 성능을 향상시키고 실제 문제에 더 적합한 규칙을 도출할 수 있습니다.

 

1. 교차 검증을 활용한 사전 가지치기 (Pre-pruning): 의사결정나무를 생성하는 동안, 분기를 결정하기 전에 교차 검증을 통해 모델의 일반화 성능을 평가하고, 일정 수준 이하의 성능 감소가 발생할 때까지 분기를 중단하는 방법입니다.

2. 후가지치기(Pose-pruning) : 먼저 의사결정나무를 완전하게 생성한 후, 불필요한 끝마디를 제거하는 방법입니다. 보통은 하향식으로 분기를 제거하며, 제거 후에도 모델의 성능이 충분히 유지되는지 확인합니다.

3. 피처 중요도 기반 가지치기 : 모델이 중요하게 생각하는 피처에만 집중하도록 가지치기를 수행하는 방법입니다. 중요하지 않은 피처의 분기를 제거하여 모델을 단순화시킵니다.

 

위 방법들을 통해 과대적합을 줄이고 일반화 성능을 향상시키기 위해 사용합니다.

 

정지규칙(stopping criteria)

 

정지규칙은 의사결정나무의 생성 과정을 언제 중단할 지를 결정하는 규칙.

의사결정나무가 데이터를 분할하고 분기를 생성할 때, 정지규칙을 기반으로 언제 멈추고 끝마디를 생성해야 하는지를 결정합니다. 예를 들어 정지규칙은 노드의 최소 샘플 수, 최대 깊이, 불순도 감소량 같은 조건을 포함할 수 있다.

반응형