📌변수 중요도 평가
📍Drop column Importance 변수 중요도
Full model의 성능을 기준으로 특정 변수를 하나 뺐을 때 변하는 성능을 기준으로 해당 변수의 상대 중요도를 판단하는 방법
특정변수를 하나 제외한 모델(RM)을 학습하고 평가한다.
중요도 산출에 Full model 의 변수 개수 + 1번의 학습과 평가가 필요하기 때문에 연산비용이 큰 편이다.
* Full Model(FM)
* Reduced Model (RM)
MODEL | RMSE | 차이 | 상대평가 |
FM | 243.1 | ||
V1 | |||
V2 | 357 | ||
V3 | 254 |
회귀모델 : 오차평가 지표
분류모델 : 오분류 관련 지표
📍Permutation Importance
기존에 학습된 모델을 기준으로 Test set의 특정 변수를 섞는 행위를 활용하여 각 변수의 중요도를 평하는 방법이다.
Test set의 특정 변수를 하나 선택하여 임의로 섞어(random shuffling) 데이터 포인트간 연관 관계를 제거
데이터를 임의로 섞기 때문에 평가 결과 재현이 어렵고 일관된 결과가 나오지 않을 수 있음
중요도 산출에 Full Model의 변수 개수 만큼의 평가만 필요하기 때문에 연산비용이 상대적으로 적은 편이다.
회귀모델 : 오차평가 지표
분류모델 : 오분류 관련 지표
⬆️ 경력 변수를 특정변수로 두어 데이터들을 섞어 버림.. 대신 실적이나 나이가 다르기때문에.. 오차가 더 증가,?
대부분 성능 저하가 있는데 가끔 성능이 오를 수도 있다. 성능 저하를 통해
장점은 학습을 한번만 하고, 평가할 때만 섞어서 계속 돌리면 된다.
<찾아보기>
📍cook's distance
📍SHAP value
성능을 택할건지, 해석을 택할건지?