데이터에 결측치가 있어 모델 학습 자체가 되지 않는 문제로 결측치는 크게 NaN과 None으로 구분된다.
▷NaN: 값이 있어야 하는데 없는 결측으로 대체, 추정, 예측 등으로 처리한다.
▷None: 값이 없는게 값인 결측(e.g., 직업-백수)으로 새로운 값으로 정의하는 방식으로 처리한다.
예를들어, 어떤 survey에서 직업이 무엇인지 물어보는 문항이 있을 때 백수의 경우 직업이 없기 때문에 이 문항에 답을 할 수가 없다. 그래서 문항에 대한 답을 쓰지 않았을 것이다. 이처럼 백수일 경우에 애초에 직업이라는 값이 없는게 정상이다.
이런 경우 새로운 값으로 정의하는 방식으로 처리한다.
→None 값은 이정도로만 기억하고 결측치라고 하면 NaN 값이라고 생각하고 공부하면된다.
결측치 처리 방법 자체는 매우 간단하나 상황에 따른 처리 방법 선택이 매우 중요하다. 상황에 따른 처리 방법은 다음 챕터 부터 공부할것이다.
결측 레코드: 결측치를 포함하는 레코드
결측치 비율: 결측 레코드 수 / 전체 레코드 개수

'데이터 전처리 > 머신러닝을 위한 필수 전처리' 카테고리의 다른 글
| 결측치 문제 해결 방법(2) 대표값으로 대체(SimpleImputer) (0) | 2022.12.15 |
|---|---|
| 결측치 문제 해결 방법(1) 삭제 (0) | 2022.12.14 |
| 데이터 파편화 문제(5)(데이터 요약이 필요한 경우) (0) | 2022.12.13 |
| 데이터 파편화 문제(4)(거리 기반 병합이 필요한 경우) (0) | 2022.12.13 |
| 데이터 파편화 문제(3)(포맷이 다른 키 변수가 있는 경우) (0) | 2022.12.12 |