📌 머신러닝이란?
기계학습으로 인공지능의 한 분야이다. 사람이 학습하듯 컴퓨터에도 데이터를 학습시켜 배운 새로운 지식을 얻어내게 하는것이다.
📍머신러닝 타입
지도학습 (교사학습) : 종속변수 존재, 모델 성능 평가 가능 -> Task driven (Regression, Classification)
비지도 학습 (비교사학습): 종속변수 부재, 모델 성능 평가 어려움 -> Data driven(Clustering)
강화학습 (감독학습) : 어떤 환경 안에서 정의된 에이전트가 보상을 최대로 하는 행동을 선택 -> Algorithm learns o react to an envirionment ex) 알파고, 자율주행
📍머신러닝 cheet sheet
📍공모전 어떤것 하면 좋을지?
예 ) SKT 외국인 통화기록 분석 데이터에서
timestamp , id , lng, lat 을 통해서 위치 와 시간을 통해 어디를 많이 가는지 -> 지하철, 철도위 고속도로 위 등등
~~ 관광상품 개선할 수 있지 않을까? 할 수 있음
📌머신러닝 모델의 평가
📍회귀모델 평가
RMSE : 만약 y의 값이 0~5 인데 7이 나온다면 안좋은것.!
RMSE : 7-> 5 (개선된거라 너무 좋은일)
MAPE 는 실제값이 0인 경우 못씀, 종속 변수 값 범위가 매우 작은 경우 지나치게 저평가 될 수 있다.
📍분류모델 평가 지표
주로 Accuracy를 많이 활용하고 --가 부족할 때 F1 Score를 활용한다.
📍기타 모델의 평가
📍데이터 분할과 평가
- Holdout Test
모델의 과적합을 막기 위한 방법으로 주어진 데이터를 두개 이상으로 나누어 학습 및 평가
보통은 Train, Test 세트로 분할하여 7:3, 8:2 로 분할
검증을 넣으려면 Train, Validation, Test 세트로 분할하여 일반적으로 5:3:2로 분할
-Cross Validation
모델의 평균적인 성능을 확인하기 위해 Holdout Test 데이터를 바꿔가며 여러번 실시하는 것
모델의 파라미터는 고정하고 학습/평가 데이터 세트만 바꿔서 그 결과를 확인하고 결과를 ㅟ합
* 일반적으로 데이터를 분활 시 중복되는 데이터가 없도록 비복원 추출 실시
'파이썬' 카테고리의 다른 글
특성 공학이란? Feature Engineering (0) | 2024.01.25 |
---|---|
앙상블 모델 (1) | 2024.01.25 |
feature_importance 변수 중요도 평가 (1) | 2024.01.25 |
스트림릿_1일차 (0) | 2023.04.11 |
딥러닝 1일차 (1) | 2023.03.30 |