본문으로 건너뛰기

의사결정나무

· 약 4분

의사결정나무 개요

의사결정나무 개념

  • 주어진 입력값들의 조합을 의사결정규칙에 따라 출력값을 예측하는 모형
  • 의사결정규칙을 트리구조로 나타내어 분류와 예측을 수행하는 분석 방법

의사결정나무 구성, 유형, 절차

의사결정나무 구성

  • 루트 노드: 최상단 노드, 첫 분류 조건
  • 부모 노드: 상위 노드
  • 자식 노드: 하위 노드
  • 리프 노드: 결과를 예측하는 말단 노드
  • 엣지: 샘플을 분류하기 위한 조건
  • 뎁스: 루트 노드에서 특정 노드까지 도달하기 위해 거쳐야하는 엣지 수

의사결정나무 유형

  • 분류트리: 범주형 변수를 예측하기 위해 사용되는 트리 모델, 데이터를 여러 범주로 분류
  • 회귀트리: 연속형 변수의 값을 예측하기 위한 트리모델
구분분류트리회귀트리
대상범주형 변수 대상연속형 변수 대상
특징불순도를 기준으로 최적 분류 결정분산을 최소화하는 방향으로 분할
평가방법지니지수, 엔트로피오차제곱합
사용시기명확한 범주를 가진 데이터 분류연속적 수치 예측, 트렌드 예측

의사결정나무 절차

성장 -> 가지치기 -> 최적 나무모형 선택 -> 해석 및 예측

  • 성장: 분석목적에 따른 트리 생성
  • 가지치기: 불필요한 가지를 제거하여 과대적합, 과소적합 방지
  • 타당성 평가: 가장 적은 엔트로피를 갖는 나무를 평가하고 최적 모형 선택
  • 해석 및 예측: 구축된 나무모형 해석

의사결정나무 평가모델

  • 지니 계수: Gini Index
    • 데이터의 불순도를 측정하는 지표
    • 0에 가까울수록 노드의 데이터가 한 클래스로 분류된 것이고, 1에 가까울수록 데이터 분산
  • 엔트로피: Entropy
    • 데이터의 확률분포가 가지는 정보량을 수치로 표현
    • 작을 수록 잘 분류된 것
  • 오차제곱합: Mean Squared Error, MSE
    • 예측치와 실제치의 차이를 측정하는 지표
    • MSE가 작을수록 모델의 예측 성능이 좋다고 평가