Machine Learning25 [파이썬 머신러닝 완벽가이드(위키북스)] : 평가 Accuracy(정확도) 정확도는 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표이다. 정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 정확도는 직관적으로 모델 예측 성능을 나타내는 평가 지표이다. 하지만 이진 분류의 경우 데이터의 구성에 따라 ML모델의 성능을 왜곡할 수 있기 때문에 정확도 수치 하나만 가지고 성능을 평가하지 않는다. 특히 정확도는 불균형한 레이블 분포에서 ML모델의 성능을 판단할 경우, 적합한 평가 지표가 아니다. Confusion Matrix(오차 행렬) 이진 분류의 예측 오류가 얼마인지와 더불어 어떠한 유형의 예측 오류가 발생하고 있는지를 함께 나타내는 지표이다. TN, FP, FN, TP는 예측 클래스와 실제 클래스의 Positive 결정 값(값.. 2021. 11. 11. [파이썬 머신러닝 완벽가이드(위키북스)] : 사이킷런 사이킷런 파이썬 머신러닝 라이브러리 중 가장 많이 사용되는 라이브러리이다. 튜토리얼로 가장 많이 사용되는 붓꽃 품종 예측하기 일단 사이킷런 데이터를 불러오고 데이터 프레임을 보면 label 이 품종 이름이 아닌 숫자로 되어 있다. 이를 좀 더 직관적으로 이름으로 mapping하고 싶다면 앞서서 배운 lambda 함수를 사용을 하거나 혹은 아래와 같이 map기능을 사용하면 된다. train_test_split 머신러닝을 진행 할 때 학습용 데이터셋과 테스트용 데이셋은 반드시 분리를 해야한다. 이때 하나하나 indexing 직접하는 것이 아닌 train_test_split을 활용해서 내가 원하는 비율 그리고 shuffle의 여부까지 정해서 손쉽게 데이터셋을 나눌수 있다. 이때 random_state 값은 호.. 2021. 11. 8. [파이썬 머신러닝 완벽가이드(위키북스)] : 데이터 핸들링 part2 - Pandas DataFrame의 칼럼 데이터 세트 생성과 수정 DataFrame의 칼럼 데이터 세트 생성과 수정 역시 [] 연산자를 이용해 쉽게 할 수 있다. DataFrame 데이터 삭제 DataFrame에서 데이터의 삭제는 drop() 메서드를 이용한다. drop() 메서드의 원형중에서 기억해야하는 중요한 피쳐는 drop(labels=None, axis=0, inplace=True) 이다. axis=0이면 행을 drop, axis=1이면 열을 drop 한다. inplace=True면 drop을 수행한 dataFrame이 그대로 저장이 되는 것이고 False이면 저장이 되지 않는다. 마지막으로 labels 파라미터는 자신이 삭제하고 싶은 칼럼명을 입력하는 파라미터이다. 만약 자신이 여러개의 칼럼을 삭제하고 싶으면 .. 2021. 11. 3. [파이썬 머신러닝 완벽가이드(위키북스)] : 데이터 핸들링 part1 - Pandas 판다스는 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리이다. 일반적으로 대부분의 데이터 세트는 2차원 데이터이다. 즉 행과 열로 이루어져있다고 할 수 있다. 2차원 데이터가 인기 있는 이유는 바로 인간이 가장 이해하기 쉬운 구조의이면서도 효과적으로 데이터를 담을 수 있는 구조이기 때문이다. 판다스는 이처럼 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌룡한 기능을 제공한다. 판다스의 핵심 객체는 DataFrame이다. DataFrame은 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체이다. 판다스가 다루는 대부분의 영역은 바로 DataFrame에 관련된 부분이다. DataFrame을 이해하기 전에 다른 중요 객체인 Index와 Series.. 2021. 11. 1. 이전 1 ··· 3 4 5 6 7 다음