본문 바로가기
Note/Machine learning

데이터 정제

by sooyeoon 2021. 8. 1.

규제

기계학습에서 좋은 모델을 찾고자 하는 것이 목적이므로 오버피팅을 규제하는 방법은 중요한 테마임.

 

방법 1 데이터 확대

데이터의 양을 늘리면 오버피팅이 잘 일어나지 않는다.

데이터를 더 많이 수집 할수록 일반화 능력이 향상됨

기계학습이 점차 관심을 받게된 이유도 빅데이터 시대가 되면서 모델의 성능이 좋아졌기 때문.

"데이터는 많을수록 좋다" ⇒ 진리

데이터를 수집했을 때 성능이 떨어지는 경우는 ?

입력된 데이터가 잘못되었을 때 (data quality에 의한)

 

방법 2 가중치 감쇠

정규화 Regularization

가중치 감쇠는 개선된 목적함수를 이용하여 모델에서 찾아낸 기울기 = w가 특히 높게 나온 값을 작게 조절하는 기법

 


기계학습의 Type

기계학습은 크게 지도학습과 비지도 학습으로 나뉘는데,

지도학습을 다른말로 예측형 이라하고 비지도학습을 서술형이라고 한다.

 

# 실무에서는 지도학습 쪽으로 많이 적용된다.

어떤 특징을 가진 사람이 위암발생 확률이 높은가? → 예측

타이타닉에서 살아남을 수 있는 생존자는? → 예측

00학교에 지원했을 때 어떤 학생이 합격할까? → 예측

 

 

지도학습과 비지도학습을 나누는 가장 중요한 기준은 특징 데이터에 대한 목표값 Y의 유무이다.

 


 

지도학습

  • 특징 벡터 X와 목표값 Y가 모두 주어진 상황
  • data set이 "정답"을 갖고 있는 경우
  • 회귀(수치 예측)와 분류 문제로 구분

수치 (회귀) 예측

- 어떤 환자의 위암 발생확률(97.8%/3%)을 수치로 예측하는 것

- 집 평형과 가격대 → 내 집은 얼마에?

 

분류예측

- 위암환자/ 위염환자 를 분류시켜주는 것

- 종양 크기와 악성 여부 → 나이와 종양의 크기로 보아 악성일 가능성?

 

# 사실 분류예측은 수치예측에서 확률을 절반으로 [50:50] 나누어 명시해주는 것이기 때문에 코드입력에 큰 차이가 없다

 

비지도 학습

비지도 학습은 이전에는 데이터속에 숨어있던 내용을 찾아주는 것

  • 특징 벡터 X는 주어졌지만 목표값 T가 주어지지 않은 상황
  • 레이블이 없는 데이터
  • 특성으로부터 거리를 계산해서 유사한 데이터끼리 군집화
  • GAN 생성모델 : 기존의 데이터를 학습해서 결과물을 생성
  • 군집화 과업
  • 밀도 추정, 특징 공간 변환 과업

클러스터링

데이터를 주면, 비슷한 그룹끼리 뭉쳐주는 것

 

연관분석

데이터 속에서 연관 "패턴"을 찾아주는 것

 

# 요즘의 비지도 학습은 생성 모델이나 차원축소로 나아가고 있다.

 


데이터 정제

결측치(missing) 처리

결측치의 특성 - 어떤 값이 될지 모름[무응답] ≠ 0점

처리방법 :

  • 결측치가 포함된 항목을 모두 버리는 방법 ( 버리는 항목의 비중이 크면 무시하기 어려움)
  • 결측치를 적절한 값으로 대체 (평균값, 인접 값으로 추정, 0, 최소값, 특정 상수 등)
  • 범주형의 경우, 최빈값으로 대체하는 것이 일반적
  • 분석 단계로 결측치 처리를 넘김(NA로 표기)
  • 별도의 범주형 변수를 정의하여 추적 가능하게 관리

틀린값(invalid)처리

처리 방법:

  • 틀린 값이 포함된 항목을 모두 버리는 방법
  • 틀린 값을 다른 적절한 값으로 대체
  • 분석 단계로 틀린 값의 처리를 넘김

이상치(outlier) 검출

* 이상치 자체로 의미를 갖는 값일 수 있음

처리 방법:

  • 값이 일반적인 범위를 벗어나 특별한 값을 갖는 경우
  • 데이터 분석 과정의 활동이므로 분석 단계로 넘김
  • ex 도난 카드의 사용, 불법 보험료 청구 등의 탐지

'Note > Machine learning' 카테고리의 다른 글

의사 결정 트리  (0) 2021.08.08
데이터 변환  (0) 2021.08.08
모델 선택  (0) 2021.08.01
기계학습 개요(2)  (2) 2021.07.18
기계학습 개요  (1) 2021.07.18