[NLP] 나이브 베이즈 분류기 (Naive Bayes Classifier)

티스토리 뷰

🚀 What I Studied/NLP

[NLP] 나이브 베이즈 분류기 (Naive Bayes Classifier)

박낑깡이 2022. 10. 24. 22:20

🎯 베이즈 정리 (Bayes' theorem)

- 베이즈 정리는 조건부 확률을 계산하는 방법 중 하나이다.

- 사건 A가 일어날 확률 : P(A), 사건 B가 일어날 확률 : P(B)

- P(A|B) : 사건 B가 일어나고 나서 사건 A가 일어날 확률, P(B|A) : 사건 A가 일어나고 나서 사건 B가 일어날 확률

-> 나이브 베이즈 분류기는 이러한 베이즈 정리를 이용해 텍스트를 분류

ex) 나이브 베이즈 분류기를 사용해 스팸 메일 필터를 만들기

P(정상 메일 | 입력 텍스트) = 입력 텍스트가 있을 때 정상 메일일 확률
P(스팸 메일 | 입력 텍스트) = 입력 텍스트가 있을 때 스팸 메일일 확률

이를 베이즈의 정리에 따라서 식을 표현하면 다음과 같다.

P(정상 메일 | 입력 텍스트) = (P(입력 텍스트 | 정상 메일) × P(정상 메일)) / P(입력 텍스트)
P(스팸 메일 | 입력 텍스트) = (P(입력 텍스트 | 스팸 메일) × P(스팸 메일)) / P(입력 텍스트)

이 때,

P(정상 메일 | 입력 텍스트) < P(스팸 메일 | 입력 텍스트) -> 스팸 메일

P(정상 메일 | 입력 텍스트) > P(스팸 메일 | 입력 텍스트) -> 정상 메일

- 우리는 스팸 메일 필터를 구현하기 위해 메일의 본문을 단어로 토큰화하여 이 단어들을 나이브 베이즈 분류기의 입력, 즉 입력 테스트로 사용한다.

예를 들어, 메일의 본문에 있는 단어가 3개라고 가정하자.

기본적으로 나이브 베이즈 분류기는 모든 단어가 독립적이라고 가정한다.

메일의 본문에 있는 단어 3개를 w1, w2, w3라고 표현한다면 결국 나이브 베이즈 분류기의 정상 메일일 확률과 스팸 메일일 확률을 구하는 식은 아래와 같다.

P(정상 메일 | 입력 텍스트) = P(w1 | 정상 메일) × P(w2 | 정상 메일) × P(w3 | 정상 메일) × P(정상 메일)
P(스팸 메일 | 입력 텍스트) = P(w1 | 스팸 메일) × P(w2 | 스팸 메일) × P(w3 | 스팸 메일) × P(스팸 메일)

위 식에서 볼 수 있듯,

나이브 베이즈 분류기에선 토큰화 이전의 단어의 순서는 중요하지 않다.
BoW(Bag of Words)와 같이 단어의 순서를 무시하고 오직 빈도수만을 고려한다.

🎯 나이브 베이즈 분류기 (Naive Bayes Classifier)

나이브 베이즈는 스팸 메일 필터, 텍스트 분류, 감정 분석, 추천 시스템 등에 광범위하게 활용되는 분류 기법으로, 지도학습 방법 중 하나이다. 따라서 나이브 베이즈 분류를 하기 위해선 Feature과 Label(우리가 원하는 분류 결과)이 필요하다. 우리는 머신러닝을 통해 동물 사진이 주어졌을 때 이 동물이 사자인지 호랑이인지 고양이인지 분류할 수 있다. 이때, 여러가지 동물들을 분류하기 위해서 동물들의 특징들이 필요한데 예를 들면 동물의 자세, 표정, 생김새, 털의 색깔 등 다음과 같은 것들이 될 수 있다.

위 예시에서, 분류 결과에 해당하는 '사자, 호랑이, 고양이'는 Label이 되고,여러가지 특징들 '동물의 자세, 표정, 생김새, 털의 색깔 등'은 Feature이 된다고 할 수 있다.

🎯나이브 베이즈 분류란?

데이터의 특징을 가지고 각 클래스(레이블)에 속할 확률을 계산하는 조건부 확률 기반의 분류 방법

나이브(naïve)하다.
즉, 데이터의 특징이 모두 상호 독립적이라는 가정하에 확률 계산을 단순화한다는 의미에서 나온 말이다.
따리서 나이브 베이즈 분류를 통해 데이터 특징이 하나 이상일 때 나이브 베이즈 공식으로 해당 데이터가 어떤 레이블에 속할 확률이 가장 높은지를 알 수 있다.

- 나이브 베이즈 분류기에서는 두 가지의 가정이 존재한다.