실제 프로세스에서는 데이터 탐색과 전처리 사이에 피드백 루프가 존재한다.
즉, 탐색을 한 번에 다하고 전처리를 한 번에 다하는 것이 아니다.
그리고 전처리에도 다양한 하이퍼 파라미터가 있기에 모델의 하이퍼 파라미터와 같이 튜닝해야 한다.
현실 지도학습 모델 개발 프로세스 (1) 필수 전처리
일반적으로 필수 전처리는 특별한 튜닝이 필요하지 않으므로 순차적으로 진행한다.
현실 지도학습 모델 개발 프로세스 (2) 성능 향상을 위한 전처리
일반적으로 성능 향상을 위한 전처리는 튜닝도 같이 수행해야 한다.
특징 선택 단계에서 차원을 축소하므로 신규 특징 추가에서 특징을 다수 추가하는 것이 최종적으로 성능 향상에 도움이 될 가능성이 높고 이전 스텝으로 돌아가는 피드백 루프를 줄일 수 있다.(파생변수 생성)
이상치 확인 단계와 특징 간 상관관계 확인 단계는 많이 스킵하는 경우도 있다. 왜냐하면 특징 간 상관관계 확인 단계는 상관성이 있을 때 영향을 받는 모델이 있고 영향을 받지 않는 모델이 있다. 즉, 어떤 모델을 선택하느냐에 따라서 상관성을 무시하는 경우도 존재한다. 그리고 이상치 확인 단계는 이상치를 제거하는 것이 유리한 상황일 수도 있고 그렇지 않은 상황이 있을 수 있기 때문이다.(도메인 지식에 의해 이상치가 필요한 분석인 경우)
왜도 확인 단계도 마찬가지로 스킵하는 경우가 종종 있다.
별이 붙은 작업은 어떻게 튜닝하느냐에 따라서 성능 차이가 발생할 수 있다. 그래서 별이 붙은 단계는 튜닝을 하는 것이 중요하다.
스케일링을 먼저 한 이유는 재샘플링은 거의 다 거리 기반의 방법론이기 때문에 실제로는 스케일링을 먼저 해주고 재샘플링을 하는 것이 더 좋은 효과를 보일 수 밖에 없다.
모델 목록 정의 즉, 모델 파라미터 튜닝은 튜닝 작업 중 제일 중요하다.
상황에 따라서 더 많은 프로세스가 포함될 수 있다.
파라미터 그리드 설계(실제로 튜닝하는 범위)
EDA(탐색)를 제대로 하지 않으면 파라미터 그리드에 포함된 파라미터 개수가 수십~수백만개도 된다.
다시 말해, EDA를 해서 어떤 튜닝 작업을 해야할지 정하는 것이 굉장히 중요하다.