
위의 그림을 통해 모델 개발 프로세스의 전반적인 흐름을 알 수 있다. 지금부터는 세부적으로 각각의 단계를 알아 보려고 한다.
문제 정의 단계는 전체 프로세스 가운데 가장 중요한 단계로, 명확한 목적 의식을 가지고 프로세스를 시작해야 한다.
이 단계에서 수행하는 활동은 다음과 같다.
- 과업 종류 결정(분류, 예측 등)
- 클래스 정의
- 도메인 지식 기반의 특징 정의
- 사용 데이터 정의
데이터 수집 단계는 문제 정의 단계에서 정의한 데이터를 수집하는 단계로, 크롤링, 센서 활용, 로그 활용 등으로 데이터를 수집한다. 기업의 경우 기업 내 구축된 DB에서 SQL을 통해 추출하는 경우가 가장 많으며, 이때는 클래스를 중심으로 수집한다.
데이터 탐색 단계는 데이터가 어떻게 생겼는지를 확인하여 프로세스를 구체화하는 단계이다. 데이터 탐색 단계에서 변수별 분포, 변수 간 상관성, 이상치와 결측치, 변수 개수, 클래스 변수 분포 등을 확인하며, 이 탐색 결과는 데이터 전처리 및 모델 선택에 크게 영향을 미친다.
데이터 전처리 단계는 원할한 모델링을 위해 데이터를 가공하는 단계로, 여기서 수행하는 대표적인 작업은 결측값 처리, 데이터 통합, 이상치 제거, 재샘플링, 특징 선택, 더미 변수 생성이 있다.
모델링 단계는 모델 선택->하이퍼 파라미터 설정->모델 학습 순으로 진행되며
모델 선택에서는 데이터 특성, 성능, 설명력 등을 기준으로 모델을 선택한다. 첫 번째 예시로 설명력이 중요한 경우 의사결정나무 혹은 베이지안 네트워크를 사용하고, 두 번째 예시로 이진 텍스트 분류를 하는 경우 나이브베이즈 혹은 서포트 벡터 머신을 사용한다.
하이퍼 파라미터 설정에서는 모델의 성능을 결정짓는 하이퍼 파라미터를 설정한다. 하지만 최적의 하이퍼 파라미터 설정은 굉장히 어려운 작업이다.
모델 학습에서는 모델에 포함된 파라미터를 추정하고 이 모델 학습에서는 이미 잘 개발되어 있는 모듈/패키지가 있기에 전혀 어렵지 않은 작업이다.
모델 평가 단계의 경우 분류 모델일 경우와 예측 모델일 경우로 나뉜다.
분류 모델의 대표적인 지표로는 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 점수(F1-score)가 있다.
예측 모델의 대표적인 지표로는 평균 제곱 오차(MSE), 평균 절대 오차(MAE) 등이 있다.
->모델 평가 단계에서 잘못된 평가를 피하기 위해, 둘 이상의 평가 지표를 사용하는 것이 바람직하다.

결과보고서 작성 단계는 지금까지의 분석 결과를 바탕으로 보고서를 작성하는 단계로 결과보고서의 통일된 구성은 없지만, 일반적으로 다음과 같이 구성된다.
- 분석 목적
- 데이터 탐색 및 전처리
- 분석 방법
- 분석 결과 및 활용 방안
'데이터 전처리 > 지도학습 주요 모델 및 개념' 카테고리의 다른 글
| 지도학습 모델 및 파라미터 선택(데이터 크기)(맹신하면 안되고 참고만 하기) (0) | 2022.12.09 |
|---|---|
| 지도학습 모델 및 파라미터 선택(그리드 서치) (0) | 2022.12.08 |
| 주요 모델의 구조 및 특성(2) (0) | 2022.12.08 |
| 주요 모델의 구조 및 특성(1) (0) | 2022.12.06 |
| 지도학습 개요 (0) | 2022.12.05 |