Note/Machine learning6 의사 결정 트리 데이터의 imbalance가 심하고 데이터가 작은 경우, 오히려 딥러닝보다 여러 개의 decision tree를 만들어놓고 합해서 다시 학습시키는 앙상블 학습 모델인 random forest나 xgb 같은 계열이 성능을 더 잘 나타낼 수 있음 의사결정트리는 결과를 시각화해서 보여주는데, 의사결정트리로 데이터가 분류되는 과정을 시각화해서 보면, 어떤 특성을 제일 먼저 선택해서 분류했는지 확인할 수 있다. 이때, 데이터 특성이나 양이 많다면 계산량도 증가하므로 시간이 오래걸리는 단점이 생기며, 이러한 단점을 보완한 랜덤포레스트 방식이 있다 ⇒ 의사결정 트리를 여러 개 생성한 뒤, 학습시키는 앙상블 학습법 각 트리의 결과들을 학습시키는 방법에 따라서 종류가 나뉜다. 분류 예제 매장 손님의 국적 분류 예측을 한.. 2021. 8. 8. 데이터 변환 기계학습의 전처리와 탐색과정이 이루어지지 않으면 아무리 멋진 알고리즘을 이용해도 좋은 결과가 나올 수 없다. 데이터의 정제 또한 데이터 전처리의 한 과정으로, 데이터 정제를 통해서 이상치나 결측치가 없는 데이터를 받았다면, 데이터는 숫자 혹은 문자로 구성되어있을 것이다. 이때 수치데이터는 고려해야할 몇 가지가 존재한다. 데이터 변환 데이터를 처리하다보면 범주형데이터가 많음 범주형 데이터 ex) 1등급 2등급 3등급.. /10대 20대 30대... 옷사이즈 - 44 55 66 / S M L / BMI 지수 ⇒ 저체중 정상 비만 데이터를 하나씩 그대로 입력하는 것 or 어떤 특성을 가진 데이터끼리 그룹화하는 것이 의미가 있는지 고려해야함 데이터의 값이 클때 ⇒ 로그변환, 역수변환, 데이터 축소 범주형으로 변.. 2021. 8. 8. 데이터 정제 규제 기계학습에서 좋은 모델을 찾고자 하는 것이 목적이므로 오버피팅을 규제하는 방법은 중요한 테마임. 방법 1 데이터 확대 데이터의 양을 늘리면 오버피팅이 잘 일어나지 않는다. 데이터를 더 많이 수집 할수록 일반화 능력이 향상됨 기계학습이 점차 관심을 받게된 이유도 빅데이터 시대가 되면서 모델의 성능이 좋아졌기 때문. "데이터는 많을수록 좋다" ⇒ 진리 데이터를 수집했을 때 성능이 떨어지는 경우는 ? 입력된 데이터가 잘못되었을 때 (data quality에 의한) 방법 2 가중치 감쇠 정규화 Regularization 가중치 감쇠는 개선된 목적함수를 이용하여 모델에서 찾아낸 기울기 = w가 특히 높게 나온 값을 작게 조절하는 기법 기계학습의 Type 기계학습은 크게 지도학습과 비지도 학습으로 나뉘는데, .. 2021. 8. 1. 모델 선택 기계학습은 일반 컴퓨터 프로그램과 가장 큰 차이점이 '모델'이 있다는 것이다. 기계가 어떻게 모델을 형성하는가? 4개의 좌표가 있는 데이터를 가지고 가장 잘 나타낼 수 있는 모델 (직선)을 만드려면? y =wx+ b 직선의 기울기인 w와 절편인 b 매개변수 집합을 찾아내서 적절한 수식을 (최적의 모델)을 완성하면 가장 적합하다고 생각되는 모델을 선별한다. 그렇다면 많은 모델 중에서 어떤 모델이 제일 좋은 모델인가를 알 수 있는가? 목적함수 objective function (또는 비용 함수cost function) 모델에 따라서 모델함수는 여러가지가 있음 수치를 예측하는 모델일 경우 , 특히 선형회귀 ((직선식)) 으로 나타낼 수 있다면 목적 함수로 평균제곱오차 MSE (Mean Squared Error.. 2021. 8. 1. 이전 1 2 다음