데이터를 분석에 사용할때 성능이? 더 좋게 나오도록 데이터를 수정하거나 형태를 변경하는 작업
data preprocessing
데이터전처리의 종류
- 데이터 클리닝 -> 결측치 처리, 틀린값 처리
- 스케일링 - > 여러변수값의 범위를 동등하나 조건으로 맞추는것 : 표준스케일링 , min -max 스케일링
- 이상치 처리 - > 이상치 탐지 및 제거
- 데이터 변환 - 로그 변환, 카테고리 인코딩 등
데이터 클리닝
결측치 처리
값이 비어있는 것을 처리하는 것 ( 파이썬에서는 빈 값이 nan으로 표시 된다 : not a number)
결측치를 철리하는 방법은 크게 세가지가 있다.
-> 결측치가 표함된 샘플(행)을 버린다.
-> 결측치를 적절한 값으로 대체 한다.
-> 결측치 처리를 다음 분석 단계로 넘긴다. 즉, 결측치를 그대로 둔다.
틀린값 처리
틀린값을 처리하는 방법도 결측치를 처리하는 방법과 같이 세가지이다.
- 틀린값이 포함된 샘플(행)을 버린다.
틀린값을 적정한 값으로 대체한다.
틀린값 처리를 다음 분석 단계로 넘긴다. 즉. 틀린값을 그대로 둔다.