본문 바로가기

Machine Learning25

[파이썬 머신러닝 완벽가이드(위키북스)] : 텍스트 분석 part7 한글 텍스트 처리 - 네이버 영화 평점 감성 분석 이번에는 네이버 영화 평점 데이터를 기반으로 감성 분석을 적용해 보았다. 네이버 영화 평점 데이터는 파이썬 머신러닝 완벽가이드(위키북스)의 깃허브에서 다운을 받았다. 데이터셋을 다운을 받은 후 파일의 형태가 어떻게 되어있는지 알아보았다. 열을 구분하기위한 id와 사람들이 평점에 남긴 말인 document 그리고 해당 리뷰가 긍정인지 부정인지 나타내는 label 값이 있다. 1이 긍정 0이 부정 감성이다. 두 비율은 거의 50대 50인 것으로 보인다. 마지막으로 리뷰가 Null 값인 열은 5개이다. Null이 일부 존재하는 것을 알 수 있다. 이는 사실 제거를 해주어도 되는 수준이기는 하지만 일단 파이썬의 정규 표현식 모튤인 re를 이용해 이 역시 아예 공백으로 변환을 한다. 이제 TF-IDF 방식으로 단.. 2022. 1. 4.
[파이썬 머신러닝 완벽가이드(위키북스)] : 텍스트 분석 part6 문서 유사도 문서와 문서 간의 유사도 비교는 일반적으로 코사인 유사도를 사용한다. 코사인 유사도는 벡터와 벡터 간의 유사도를 비교할 때 벡터의 크기보다는 벡터의 상호 방향성이 얼마나 유사한지에 기반한다. 즉, 코사인 유사도는 두 벡터 사이의 사잇각을 구해서 얼마나 유사한지 수치로 적용한 것이다. 두 벡터의 사잇각이 작으면 작을수록 유사도는 올라간다. 이 때 이 각도가 수직에 가까우면 관련성이 없는 벡터들이라고 생각할 수 있다. 추가로 90도가 넘어가서 180도에 가까워지면 두 벡터는 반대 관계에 있는 벡터들이라고 할 수 있다. 두 벡터 A와 B의 내적 값은 두 벡터의 크기를 곱한 값의 코사인 각도 값을 곱한 것이다. 코사인 유사도가 문서의 유사도 비교에 가장 많이 사용되는 이유가 있다. 먼저 문서를 피처 벡터화 변환.. 2022. 1. 2.
[파이썬 머신러닝 완벽가이드(위키북스)] : 텍스트 분석 part5 토픽 모델링 문서 군집화 개념 문서 군집화는 비슷한 텍스트 구성의 문서를 군집화하는 것이다. 문서 군집화는 동일한 군집에 속하는 문서를 같은 카테고리 소속으로 분류할 수 있으므로 앞에서 소개한 텍스트 분류 기반의 문서 분류와 유사하다. 하지만 텍스트 분류 기반의 문서 분류는 사전에 결정 카테고리 값을 가진 학습 데이터 세트가 필요한 데 반해, 문서 군집화는 학습 데이터 세트가 필요 없는 비지도 학습 기반으로 동작한다. Opinion Review 데이터 세트를 이용한 문서 군집화 수행 이번 실습에서는 여러 개의 파일을 하나씩 읽어서 파일명과 파일 리뷰를 하나의 DataFrame으로 로드하여 파일명별로 어떤 리뷰를 담고 있는지 대략적으로 살펴보았다. 여러 개의 파일을 DataFrame으로 로딩하는 로직은 다음과 같다. .. 2021. 12. 29.
[파이썬 머신러닝 완벽가이드(위키북스)] : 텍스트 분석 part5 토픽 모델링 토픽 모델링이란 문서 집합에 숨어 있는 주제를 찾아내는 것이다. 많은 양의 문서가 있을 때 사람이 이 문서를 다 읽고 핵심 주제를 찾는 것은 매우 많은 시간이 소모된다. 이 경우에 머신러닝 기반의 토픽 모델링을 적용해 숨어 있는 중요 주제를 효과적으로 찾아낼 수 있다. 사람이 수행하는 토픽 모델링은 더 함축적인 의미로 문장을 요약하는 것에 반해, 머신러닝 기반의 토픽 모델은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출한다. 머신러닝 기반 초픽 모델링에 자주 사용되는 기법은 LSA와 LDA이다. 이번에는 LDA만 사용해서 토픽 분류를 진행해보았다. 사이킷런은 LDA 기반의 초픽 모델링을 LatentDirichletAllocation 클래스로 제공한다. 먼저 LDA 토픽 모델링을 위.. 2021. 12. 27.