나이브 베이즈 분류 개념 이해

나이브 베이즈(Naïve Bayes Classification)는 확률 기반 분류기의 일종으로 1950대 이후 광범위하게 연구되고 있다.

쉽게 설명하면 다음과 같다. 예로 흡연과 간암과의 상관 관계는 널리 알려진 사실이다. 하지만 흡연을 할 경우에 간암에 걸릴 확률을 추정할 수 있을까? 이때 사용하는 방법이 나이브 베이즈 방법이다. 

p(간암|흡연) = p(흡연|간암)*p(간암)/p(흡연)

간암 확률과 흡연 확률 그리고 간암이 걸린 상태일 때의 흡연 확률을 알면 흡연할 때 간암이 걸린 확률, 다시말해 원인이 주어질 때 결과가 될 확률을 추론할 수 있다. 범위를 좁혀 우리 나라 인구만 적용한다면 간암에 걸린 사람의 확률, 흡연 확률 그리고 간암에 걸린 사람들을 대상으로 흡연하고 있는 확률을 구할 수 있다.

중요한 점은 나이브 베이즈는 특징(feature)이 독립적이라고 가정하면 1개 이상 여러 개로 확장할 수 있다. 쉽게 말해 흡연 외에 간암이 될 요인들을 여러 개로 확장할 수 있다는 것이다. 특징이 어려개 이고 확률적으로 각각의 특징으로 확률적으로 조사만 된다면 가령 아래와 같이 현재 그 사람의 습관이나 상태에 따라 간암에 대한 발생확률을 기계적으로 학습 가능할 것이다.

p(간암|흡연, 간염, 성별, 직업, ...)

로봇 트레이딩에서는 어떤 식으로 활용 가능할까? 가령 간단하게는 기업 공시를 나이브 베이즈로 학습해서 주가에 영향을 긍정적으로 주는 단어들을 학습하고자 할 때 나이브 베이즈를 사용할 수 있을 것이다. 

 

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중