log 변환
'데이터 전처리-머신러닝 모델의 성능 향상을 위한 전처리-변수 분포 문제-변수 치우침 제거' 참고
'파이썬 머신러닝 완벽가이드/[2장] 사이킷런으로 시작하는 머신러닝/스케일링, 로그변환' 참고
log변환은 왜곡된 분포를 가진 피처를 비교적 정규분포에 가깝게 변환
IQR를 이용한 이상치 제거
'데이터 전처리-머신러닝 모델의 성능 향상을 위한 전처리-변수 분포 문제-이상치 제거' 참고
언더 샘플링과 오버 샘플링
'데이터 전처리-머신러닝 모델의 성능 향상을 위한 전처리-클래스 불균형 문제, 클래스 불균형 문제 해결방법' 참고
●레이블이 불균형한 분포를 가진 데이터 세트를 학습 시, 이상 레이블을 가지는 데이터 건수가 정상 레이블을 가진 데이터 건수에 비해 너무 적어 제대로 된 유형의 학습이 어려움. 즉, 이상 레이블을 가지는 데이터 건수는 매우 적기 때문에 제대로 다양한 유형을 학습하지 못하는 반면에 정상 레이블을 가지는 데이터 건수는 매우 많기 때문에 일방적으로 정상 레이블로 치우친 학습을 수행해 제대로 된 이상 데이터 검출이 어려움
●지도학습 분류에서 불균형한 레이블 값 분포로 인한 문제를 해결하는 대표적인 방법은 오버 샘플링과 언더 샘플링이 있음
'파이썬 머신러닝 완벽가이드 > [4장] 분류' 카테고리의 다른 글
스태킹 앙상블 (0) | 2023.02.27 |
---|---|
캐글 신용카드 사기 검출 (0) | 2023.02.25 |
캐글 산탄데르 고객 만족 예측 (0) | 2023.02.23 |
베이지안 최적화 기반의 HyperOpt를 이용한 하이퍼 파라미터 튜닝(2) (0) | 2023.02.22 |
베이지안 최적화 기반의 HyperOpt를 이용한 하이퍼 파라미터 튜닝(1) (0) | 2023.02.20 |