나이브 베이즈(Naïve Bayes Classification)는 확률 기반 분류기의 일종으로 1950대 이후 광범위하게 연구되고 있다.
쉽게 설명하면 다음과 같다. 예로 흡연과 간암과의 상관 관계는 널리 알려진 사실이다. 하지만 흡연을 할 경우에 간암에 걸릴 확률을 추정할 수 있을까? 이때 사용하는 방법이 나이브 베이즈 방법이다.
p(간암|흡연) = p(흡연|간암)*p(간암)/p(흡연)
즉 간암 확률과 흡연 확률 그리고 간암이 걸린 상태일 때의 흡연 확률을 알면 흡연할 때 간암이 걸린 확률, 다시말해 원인이 주어질 때 결과가 될 확률을 추론할 수 있다. 범위를 좁혀 우리 나라 인구만 적용한다면 간암에 걸린 사람의 확률, 흡연 확률 그리고 간암에 걸린 사람들을 대상으로 흡연하고 있는 확률을 구할 수 있다.
중요한 점은 나이브 베이즈는 특징(feature)이 독립적이라고 가정하면 1개 이상 여러 개로 확장할 수 있다. 쉽게 말해 흡연 외에 간암이 될 요인들을 여러 개로 확장할 수 있다는 것이다. 특징이 어려개 이고 확률적으로 각각의 특징으로 확률적으로 조사만 된다면 가령 아래와 같이 현재 그 사람의 습관이나 상태에 따라 간암에 대한 발생확률을 기계적으로 학습 가능할 것이다.
p(간암|흡연, 간염, 성별, 직업, ...)
로봇 트레이딩에서는 어떤 식으로 활용 가능할까? 가령 간단하게는 기업 공시를 나이브 베이즈로 학습해서 주가에 영향을 긍정적으로 주는 단어들을 학습하고자 할 때 나이브 베이즈를 사용할 수 있을 것이다.