본문 바로가기

Machine Learning25

[파이썬 머신러닝 완벽가이드(위키북스)] : 분류 part4 캐글 신용카드 사기 검출 실습 분석에 앞서 언더 샘플링과 오버 샘플링의 이해 레이블이 불균형한 분포를 가진 데이터 세트를 학습시킬 때 예측 성능의 문제가 발생할 수 있는데, 이는 이상 레이블을 가지는 데이터 건수가 정상 레이블을 가진 데이터 건수에 비해 너무 작기 때문에 발생한다. 즉 이상 레이블을 가지는 데이터 건수는 매우 적기 때문에 제대로 다양한 유형을 학습하지 못하는 반면에 정상 레이블을 가지는 건수는 매우 많기 때문에 일방적으로 정상 레이블로 치우친 학습을 수행해 제대로 된 이상 데이터 검출이 어려워지기 쉽다. 이를 해결하기 위한 방안으로 오버 샘플링과 언더 샘플링이 있다. -> 이중 오버 샘플링 방식이 예측 선능상 더 유리한 경우가 많아 주로 사용된다. 언더 샘플링 많은 데이터 세트를 적은 데이터 세트 수준으로 감소시키는 .. 2021. 11. 21.
[파이썬 머신러닝 완벽가이드(위키북스)] : 분류 part3 (GBM, XGBoost, LightGBM) GBM(Gradient Boosting Machine) 부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식이다. 부스팅의 대표적인 구현은 AdaBoost(Adaptive boosting)와 Gradient boost가 있다. Ada는 오류 데이터에 가중치를 부여하며 부스팅을 수행하는 알고리즘이다. GBM도 에이다부스트와 유사하나, 가중치 업데이트를 경사 하강법을 이용하는 것이 큰 차이이다. 오류값은 실제값 - 예측값이다. 분류의 실제 결과값을 y피처를 x_1,x_2,...,x_n 그리고 이 피처에 기반한 예측 함수를 F(x)함수라고 하면 오류식은 h(x)=y-F(x)가 된다. 이 오류식을 최소화하는 방향성을 .. 2021. 11. 21.
[파이썬 머신러닝 완벽가이드(위키북스)] : 분류 part2 Ensemble Learning (앙상블 학습) 앙상블 학습을 통한 분류는 여러 개의 분류기를 생성하고 그 예측을 도출하는 기법을 말한다. 이렇게 하는 이유는 각각의 장단점을 지닌 다양한 분류기의 예측 결과를 결합함으로써 단일 분류기보다 신뢰성이 높은 예측값을 얻기 위함이다. 앙상블 학습의 유형은 전통적으로 보팅(Voting), 배깅(Bagging), 부스팅(Boosting)의 세 가지로 나눌 수 있으며, 이외에도 스태깅을 포함한 다양한 앙상블 방법이 있다. 보팅과 배깅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식이다. 보팅과 배깅의 다른 점은 보팅의 경우 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합하는 것이고, 배깅의 경우 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지.. 2021. 11. 20.
[파이썬 머신러닝 완벽가이드(위키북스)] : 분류 part1 Classification의 개요 지도학습은 레이블 즉, 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식이다. 지도학습의 대표적인 분류는 학습 데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 이렇게 생성된 모델에 새로운 값이 주어졌을 때 미지의 레이블 값을 예측하는 것이다. Decision Tree 결정 트리 결정 트리는 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것이다. 쉽게 생각하면 스무고개 게임과 유사하다. 리프 노드 : 결정된 클래스 값 규칙 노드 : 규칙 조건 가능한 적은 결정 노드로 높은 예측 정확도를 가지려면 데이터를 분류할 때 최대한 많은 데이터 세트가 해당 분휴에 속할 수 있도록 결정 노.. 2021. 11. 19.