📍특성공학이란?
Feature Engineering의 개요
변수 선별, 기존 변수 조합 등 주로 모델의 성능을 올리기 위해서 주로 실시함
모델의 간결하게 하거나 모델의 해석을 용이하게 하기도 함
특징선택(feature selection)과 특징추출(Feature Extraction)이 주로 작업이다.
쉽게 말하면 유효한 특성을 잘 선택하면 학습 속도가 빨라지고, 성능과 정확도를 개선할 수 있다.
ex) 사과를 보면 어떤 특징을 뽑을 수 있는가?
기본 정보 : 사과는 빨갛고, 과일이고, 동그랗고, 가격은 얼마고, 맛은 어떤가?
어떤것을 고민할 것인가 생각해보자 ➡️ 사과의 광택, 이파리 넣어준거나, 꼭지는 ? , 벌레 먹은 자국이 있냐, 상처가 있냐, 특정 지역의 산출물인가?, 수확시점이 언젠가?
📌시계열 분해(Time Series De-Composition)
시간이 흐르면서 축척된 데이터를 통해 분석하는것으로 시계열 데이터를 추세/순환/계절/불규칙 요소로 분해하는 기법
특히 반복되는 패턴을 확인 할 수 있음
Obderved (순환):
Trend (추세) : 데이터가 장기적으로 증가하거나 감소하는 것이며, 추세가 꼭 선형적일 필요는 없다.
Seasonal (계절성): 주,월,분기,반기 단위 등 특정 시간의 주기로 나타나는 패턴이다.
Residual (불규칙요소): 설명될 수 없는 요인 또는 돌발적인 요인에 의하여 일어나는 변화로, 예측 불가능한 임이의 변동을 의미한다.
분해법에서는 원래 데이터에서 추세, 순환, 계절성은 뺀 나머지를 불규칙 요소라 한다.
📍퓨리에 변환
시간에 대한 함수(혹은 신호)를 함수를 구성하고 있는 주파수 성분으로 분해하는 작업
음악이나 소리 파일 압축에 많이 활용함 (mp3 파일)
압축을 풀면서 원음을 최대한 살려서 원음을 들을 수 있게 되는 것임
시계열 데이터에서 주기적인 패턴을 뽑기 어려울 때 (직관적으로 보기 어려운 패턴이 있는지 볼때 사용함)
📍차원 축소 를 위한 다양한 방법론
Lasso regression 을 쓰는데 ramda값을 쭉 올리면서 영향을 없는 변수가 사라짐. 최초 10개 변수가 남았을 때 사용해보기도함.
해석을 중시하면서 변수 개수를 과학적으로 줄이고 싶을 때 사용하는 방법