규제
기계학습에서 좋은 모델을 찾고자 하는 것이 목적이므로 오버피팅을 규제하는 방법은 중요한 테마임.
방법 1 데이터 확대
데이터의 양을 늘리면 오버피팅이 잘 일어나지 않는다.
데이터를 더 많이 수집 할수록 일반화 능력이 향상됨
기계학습이 점차 관심을 받게된 이유도 빅데이터 시대가 되면서 모델의 성능이 좋아졌기 때문.
"데이터는 많을수록 좋다" ⇒ 진리
데이터를 수집했을 때 성능이 떨어지는 경우는 ?
입력된 데이터가 잘못되었을 때 (data quality에 의한)
방법 2 가중치 감쇠
정규화 Regularization
가중치 감쇠는 개선된 목적함수를 이용하여 모델에서 찾아낸 기울기 = w가 특히 높게 나온 값을 작게 조절하는 기법
기계학습의 Type
기계학습은 크게 지도학습과 비지도 학습으로 나뉘는데,
지도학습을 다른말로 예측형 이라하고 비지도학습을 서술형이라고 한다.
# 실무에서는 지도학습 쪽으로 많이 적용된다.
어떤 특징을 가진 사람이 위암발생 확률이 높은가? → 예측
타이타닉에서 살아남을 수 있는 생존자는? → 예측
00학교에 지원했을 때 어떤 학생이 합격할까? → 예측
지도학습과 비지도학습을 나누는 가장 중요한 기준은 특징 데이터에 대한 목표값 Y의 유무이다.
지도학습
- 특징 벡터 X와 목표값 Y가 모두 주어진 상황
- data set이 "정답"을 갖고 있는 경우
- 회귀(수치 예측)와 분류 문제로 구분
수치 (회귀) 예측
- 어떤 환자의 위암 발생확률(97.8%/3%)을 수치로 예측하는 것
- 집 평형과 가격대 → 내 집은 얼마에?
분류예측
- 위암환자/ 위염환자 를 분류시켜주는 것
- 종양 크기와 악성 여부 → 나이와 종양의 크기로 보아 악성일 가능성?
# 사실 분류예측은 수치예측에서 확률을 절반으로 [50:50] 나누어 명시해주는 것이기 때문에 코드입력에 큰 차이가 없다
비지도 학습
비지도 학습은 이전에는 데이터속에 숨어있던 내용을 찾아주는 것
- 특징 벡터 X는 주어졌지만 목표값 T가 주어지지 않은 상황
- 레이블이 없는 데이터
- 특성으로부터 거리를 계산해서 유사한 데이터끼리 군집화
- GAN 생성모델 : 기존의 데이터를 학습해서 결과물을 생성
- 군집화 과업
- 밀도 추정, 특징 공간 변환 과업
클러스터링
데이터를 주면, 비슷한 그룹끼리 뭉쳐주는 것
연관분석
데이터 속에서 연관 "패턴"을 찾아주는 것
# 요즘의 비지도 학습은 생성 모델이나 차원축소로 나아가고 있다.
데이터 정제
결측치(missing) 처리
결측치의 특성 - 어떤 값이 될지 모름[무응답] ≠ 0점
처리방법 :
- 결측치가 포함된 항목을 모두 버리는 방법 ( 버리는 항목의 비중이 크면 무시하기 어려움)
- 결측치를 적절한 값으로 대체 (평균값, 인접 값으로 추정, 0, 최소값, 특정 상수 등)
- 범주형의 경우, 최빈값으로 대체하는 것이 일반적
- 분석 단계로 결측치 처리를 넘김(NA로 표기)
- 별도의 범주형 변수를 정의하여 추적 가능하게 관리
틀린값(invalid)처리
처리 방법:
- 틀린 값이 포함된 항목을 모두 버리는 방법
- 틀린 값을 다른 적절한 값으로 대체
- 분석 단계로 틀린 값의 처리를 넘김
이상치(outlier) 검출
* 이상치 자체로 의미를 갖는 값일 수 있음
처리 방법:
- 값이 일반적인 범위를 벗어나 특별한 값을 갖는 경우
- 데이터 분석 과정의 활동이므로 분석 단계로 넘김
- ex 도난 카드의 사용, 불법 보험료 청구 등의 탐지
'Note > Machine learning' 카테고리의 다른 글
의사 결정 트리 (0) | 2021.08.08 |
---|---|
데이터 변환 (0) | 2021.08.08 |
모델 선택 (0) | 2021.08.01 |
기계학습 개요(2) (2) | 2021.07.18 |
기계학습 개요 (1) | 2021.07.18 |