본문 바로가기

카테고리 없음

데이터 전처리 -2

데이터를 분석에 사용할때 성능이? 더 좋게 나오도록 데이터를 수정하거나 형태를 변경하는 작업

 

data preprocessing

 

데이터전처리의 종류

- 데이터 클리닝 -> 결측치 처리, 틀린값 처리

- 스케일링 - > 여러변수값의 범위를 동등하나 조건으로 맞추는것 : 표준스케일링 , min -max 스케일링

- 이상치 처리 - > 이상치 탐지 및 제거

- 데이터 변환 - 로그 변환, 카테고리 인코딩 등

 

데이터 클리닝

 

결측치 처리

값이 비어있는 것을 처리하는 것 ( 파이썬에서는 빈 값이 nan으로 표시 된다 : not a number)

결측치를 철리하는 방법은 크게 세가지가 있다.

 

-> 결측치가 표함된 샘플(행)을 버린다.

-> 결측치를 적절한 값으로 대체 한다.
-> 결측치 처리를 다음 분석 단계로 넘긴다. 즉, 결측치를 그대로 둔다.

 

틀린값 처리

틀린값을 처리하는 방법도  결측치를 처리하는 방법과 같이 세가지이다.

- 틀린값이 포함된 샘플(행)을 버린다.

틀린값을 적정한 값으로 대체한다.

틀린값 처리를 다음 분석 단계로 넘긴다. 즉. 틀린값을 그대로 둔다.