📍특성공학이란? Feature Engineering의 개요 변수 선별, 기존 변수 조합 등 주로 모델의 성능을 올리기 위해서 주로 실시함 모델의 간결하게 하거나 모델의 해석을 용이하게 하기도 함 특징선택(feature selection)과 특징추출(Feature Extraction)이 주로 작업이다. 쉽게 말하면 유효한 특성을 잘 선택하면 학습 속도가 빨라지고, 성능과 정확도를 개선할 수 있다. ex) 사과를 보면 어떤 특징을 뽑을 수 있는가? 기본 정보 : 사과는 빨갛고, 과일이고, 동그랗고, 가격은 얼마고, 맛은 어떤가? 어떤것을 고민할 것인가 생각해보자 ➡️ 사과의 광택, 이파리 넣어준거나, 꼭지는 ? , 벌레 먹은 자국이 있냐, 상처가 있냐, 특정 지역의 산출물인가?, 수확시점이 언젠가? 📌시계열..
📌 앙상블 모델링 📍앙상블이란?(Ensemble) 2개 이상의 모델을 활용하여 단일 모델 대비 더 나은 성능의 모델을 만드는 것 다수의 약 분류기(Week Classifier)를 결합하여 강 분류기(Strong Clssifier)을 만듦 언제 쓰나? 종속변수가 너무 다를때 사용 ex) 남자 구매패턴 , 여자 구매패턴이 너무 다를때 사용, 경험적 근거에 의해 다른것 들 특정변수의 기준으로 종속 변수를 쪼갰을 때 차이가 나면 ... 📍Boosting(부스팅) 앙상블 모델링을 합치면서 계층적 모델처럼 학습을 시키는 모습이 나옴 오분류에 집중해 더 많은 가중치를 주는 기법이다. ➡️ 너무 많이 주면 과적합의 문제가 심각하게 나타난다. 각 단계마다 각 데이터에 새로운 가중치와 중요도를 산출하여 다음 연산에 반영 ..
📌변수 중요도 평가 📍Drop column Importance 변수 중요도 Full model의 성능을 기준으로 특정 변수를 하나 뺐을 때 변하는 성능을 기준으로 해당 변수의 상대 중요도를 판단하는 방법 특정변수를 하나 제외한 모델(RM)을 학습하고 평가한다. 중요도 산출에 Full model 의 변수 개수 + 1번의 학습과 평가가 필요하기 때문에 연산비용이 큰 편이다. * Full Model(FM) * Reduced Model (RM) MODEL RMSE 차이 상대평가 FM 243.1 V1 V2 357 V3 254 회귀모델 : 오차평가 지표 분류모델 : 오분류 관련 지표 📍Permutation Importance 기존에 학습된 모델을 기준으로 Test set의 특정 변수를 섞는 행위를 활용하여 각 변수..
K-means 분석방법 최초 중심점(centroid) # K means n _clusters 개수 찾고, 모델링하고, 데이터프레임에 넣기 X= df.loc[:, :"Petal.Width"] model = KMeans(n_clusters =3, random_state=123) model.fit(X) df_centroids = pd.DataFrame(model.cluster_centers_, columns = X.columns) 📍DBSCAN 밀도 기반 클러스터링 계층적 군집 분석 + 클러스터링이다 Kmeans는 사용자가 k값이나 갯수를 정해줘야함. DBSACN은 운명에 맡김. 반지름을 통해 알아서 군집시켜버림 MinMax fit()- 모델 학습 transform() - 학습된 모델을 기반으로 신규 데이터 ..
📌 머신러닝이란? 기계학습으로 인공지능의 한 분야이다. 사람이 학습하듯 컴퓨터에도 데이터를 학습시켜 배운 새로운 지식을 얻어내게 하는것이다. 📍머신러닝 타입 지도학습 (교사학습) : 종속변수 존재, 모델 성능 평가 가능 -> Task driven (Regression, Classification) 비지도 학습 (비교사학습): 종속변수 부재, 모델 성능 평가 어려움 -> Data driven(Clustering) 강화학습 (감독학습) : 어떤 환경 안에서 정의된 에이전트가 보상을 최대로 하는 행동을 선택 -> Algorithm learns o react to an envirionment ex) 알파고, 자율주행 📍머신러닝 cheet sheet 📍공모전 어떤것 하면 좋을지? 예 ) SKT 외국인 통화기록 분..
오늘은 디자인 스프린트의 마지막 솔루션 결정의 날이다. 지금까지 의견을 모았던 솔루션은 어떤것인지 발표자료로 확인해보겠습니다. 📌Final 발표 📍GoREP (고렙) → Go + REP Go : 높은 레벨 (高 + Level) REP : REAL Expert People 진짜 전문가들! 의사결정자 기록담당자 기술담당자 연결담당자(발표) 프로젝트 매니저(PM) 고영서 박유진 김한규 이기쁨 이승연 💡프로젝트 개요 프로젝트 배경 의뢰자는 B2B 콜드체인 물류회사를 운영하고 있고, 10년 이상된 중소기업으로 DX(Digital Transformation)를 위한 중간과정에 있다. 현재는 대부분의 배송을 소상공인에게 하고있지만 사업 확장을 위해 B2C도 생각하고 있으며, 콜드체인 특성인 배송시간을 줄여 더 빠른 ..