Machine Learning25 [파이썬 머신러닝 완벽가이드(위키북스)] : Clustering (군집화) Part2 평균 이동(Mean Shift)의 개요 평균 이동은 K-평균과 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화를 수행한다. 하지만 K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해, 평균 이동은 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킨다. 평균 이동 군집화는 데이터의 분포도를 이용해 군집 중심점을 찾는다. 군집 중심점은 데이터 포인트가 모여있는 곳이라는 생각에서 착안한 것이며 이를 위해 확률 밀도 함수를 이용한다. 가장 집중적으로 데이터가 모여 있어 확률 밀도 함수가 피크인 점을 군집 중심점으로 선정하며 일반적으로 주어진 모델의 확률 밀도 함수를 찾기 위해서 KDE(Kernel Density Estimation)를 이용한다. 평균 이동 군집화는 특정 데.. 2021. 12. 6. [파이썬 머신러닝 완벽가이드(위키북스)] : Clustering (군집화) Part1 k-평균 알고리즘 이해 K-평균 군집화에서 가장 일반정으로 사용되는 알고리즘이다. K-평균은 군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. 군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심정의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법이다. K-평균 군집화의 장점 1. 일반적인 군집화에서 가장 많이 활용되는 알고리즘이다. 2. 알고리즘이 쉽고 간결하다. K-평균 군집화의 단점 1. 거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어진다.(이를 위해서 PCA로 차원 축소를 적용해야 할 수도 있다.).. 2021. 12. 1. [파이썬 머신러닝 완벽가이드(위키북스)] : 차원 축소 차원 축소는 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것이다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소한 구조를 가지게 된다. 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다. 또한 피처가 많은 경우 개별 피처 간에 상관관계가 높을 가능성이 크다. 선형 회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 이로 인한 자중 공선성 문제로 모델의 예측 성능이 저하된다. 다중공선성(multicollinearity)란 독립 변수의 일부가 다른 독립 변수의 조합으로 표현될 수 있는 경우이다. 독립 변수들이 서로 독립이 아니라 상호.. 2021. 11. 28. [파이썬 머신러닝 완벽가이드(위키북스)] : Regression 회귀 part4 캐글 주택 가격 예측 실습 정규 분포가 아닌 결괏값을 정규 분포 형태로 변환하기 위해 로그 변환을 적용한다. 먼저 numpy의 log1p()를 이용해 로그 변환한 결괏값을 기반으로 학습한 뒤 예측 시에는 다시 결괏값을 expm1()으로 추후에 환원하면 된다. NULL이 많은 피처인 PoolQC, MisccFeature, Alleym Fence, FireplaceQu는 삭제. Id도 단순한 식별자이므로 삭제. 이제는 문자형 피처를 제외하고는 NULL값이 없다. 문자형 피처는 모두 One-Hot encoding 으로 변환한다. 원-핫 인코딩은 판다스의 get_dummies()를 이용한다. get_dummies()는 자동으로 문자열 피처를 원-핫 인코딩으로 변환하면서 NULL 값은 'None'칼럼으로 대체해주기 때문에 별도의 NULL .. 2021. 11. 25. 이전 1 2 3 4 5 6 7 다음