|
前提知識
・ベイズの定理(応用形)
ベイズ理論を利用した、与えられたデータを目的のカテゴリーに分類する方法をベイズ分類といい、その中で最も簡単な分類器を
単純ベイズ分類器(ナイーブベイズフィルタ)といいます。(ベイズの定理の詳細はこちら)
ナイーブとは、日本語では"繊細な"、"感受性が高い"というような意味合いで使われると思いますが、英語では"単純な"という意味もあり、
ここでのナイーブとは"単純な"という意味です。
単純ベイズ分類器を使う有名な例として、迷惑メールの分類があります。具体例で説明していきます。
■例題
あるメールを調べたら、次の順で以下単語が1回ずつ検索された。このメールが迷惑メールか通常メールかを分類せよ。
プレゼント 無料 天気
■回答
前提
・メール内の単語は全て独立とする。(本来ならばお互いの単語は関連は有る筈)
・迷惑メールと通常メールの発生比率は7:3の割合である。
・各単語は以下確率で迷惑メールと通常メールに含まれている。
なお、この様に単語の出現確率を事前に与えてやる方法を、教師ありベイズ分類といいます。
一方、事前に出現確率は与えず学習していくタイプの分類を教師なしベイズ分類といいます。
導出
こちらで説明した以下ベイズの定理を使用します。
次に言葉の定義を以下の様にします。
・Y1:迷惑メールである , Y2:通常メールである
・X1:プレゼント , X2:無料 , X3:天気 という単語が検出される。
それを踏まえて上記公式で表現すると以下となります。
・各単語Xが検出された事を踏まえ、メールが迷惑メールY1である確率
・各単語Xが検出された事を踏まえ、メールが通常メールY2である確率
両者の値の大小関係を判別する
迷惑メールか否かを判別するだけなら上記式を全て計算する必要はなく、共通部分の分母を1とおく事で計算を簡単にします。
また各確率の値をおさらいすると、
となります。(1)式は、
また(2)式は、
より、
となり、このメールは迷惑メールであると判別します。
サブチャンネルあります。⇒ 何かのお役に立てればと
|
|