본문 바로가기

Machine Learning25

[파이썬 머신러닝 완벽가이드(위키북스)] : 텍스트 분석 part4 감성 분석 감정 분석은 문서의 주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법으로 소셜 미디어, 여론조사, 온라인 리뷰, 피드백 등 다양한 분야에서 활용되고 있다. 감성 분석은 문서 내 텍스트가 나타내는 여러 가지 주관적인 단어와 문맥을 기반으로 감성 수치를 계산하는 방법을 이용한다. 이러한 감성 분석은 머신러닝 관점에서 지도 학습과 비지도 학습 방식으로 나눌 수 있다. 1. 지도학습은 학습 데이터와 타깃 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이터의 감성 분석을 예측하는 방법으로 일반적인 텍스트 기반의 분류와 거의 동일 2. 비지도학습은 'Lexicon'이라는 일종의 감성 어휘 사전을 이용한다. Lexicon은 감성 분석을 위한 용어와 문맥에 대한 다양한 정보를 가지고 있으.. 2021. 12. 13.
[파이썬 머신러닝 완벽가이드(위키북스)] : 텍스트 분석 part3 뉴스그룹 분류 사이킷런이 내부에 가지고 있는 예제 데이터인 20 뉴스그룹 데이터 세트를 이용해 텍스트 분류를 적용해 보았다. 사이킷런은 fetch_20 newsgroup() API를 이용해 뉴스그룹의 분류를 수행해 볼 수 있는 예제 데이터를 제공한다. 텍스트를 기반으로 분류를 수행할 때는 먼저 텍스트를 정규화한 뒤 피처 벡터화를 적용한다. 그 후에 적합한 머신러닝 알고리즘을 적용해 분류를 학습/예측/평가를 진행한다. 텍스트 정규화 fetch_20newsgroups()는 인터넷에서 로컬 컴퓨터로 데이터를 먼저 내려받은 후에 메모리로 데이터를 로딩한다. fetch_20newsgroups()는 사이킷런의 다른 데이터 세트 예제와 같이 파이썬 딕셔너리와 유사한 Bunch 객체를 반환한다. Target 클래스의 값은 0부터 1.. 2021. 12. 13.
[파이썬 머신러닝 완벽가이드(위키북스)] : 텍스트 분석 part2 BOW Bag of Words 모델은 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다. 문서 내 모든 단어를 한꺼번에 봉투 안에 넣은 뒤에 흔들어서 섞는다는 의미로 BOW모델이라고 한다. 아래에 나와있는 2개의 문장이 있다고 가정하고 이 문장을 BOW의 단어 수 (Word Count) 기반으로 피처를 추출해 보았다. 문장1: "My wife lliks to watch baseball games and my daugther likes to watch baseball games too" 문장2: "My wife likes to play baseball" Bow Process 1. 문장1과 문장2에 있는 모든 단어에서 중복을 제거하.. 2021. 12. 11.
[파이썬 머신러닝 완벽가이드(위키북스)] : 텍스트 분석 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다. Text Classification(텍스트 분석): Text Categorization이라고도 한다. 문서나 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭한다. 예를 들어 특정 신문 기사 내용이 연애/정치/사회/문화 중 어떤 카테고리에 속하는지 자동으로 분류하거나 스팸 메일 검출 같은 프로그램이 이에 속한다. 지도학습을 적용한다. Sentiment Analysis(감성 분석): 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭한다. 소셜 미디어 감정 분석, 영화나 제품에 대한 긍정 또는 리뷰, 여론조사.. 2021. 12. 9.