|
前提知識
・ベクトルの内積
・共分散
■コサイン類似度とは
コサイン類似度とは、二つのベクトルの向きがどれくらい同じ方向に向いているか、その類似度をベクトルの内積を用いて表した指標です。
サンプルデータをベクトルに置き換え、コサイン類似度を求めることで、データの類似性を見出すことができます。
コサイン類似度の使用例として、自然言語処理において単語や文章をベクトル化することで、その類似度を測る場合や、サンプルデータの類似度から回帰分析(ex:カーネル回帰)する際などにも使用されます。
内積と共分散の関係を理解すると、何故内積でベクトルの類似度が測ることができるのかイメージできます。
■ベクトルの内積と共分散の関係性
<ベクトルの内積>
以下のように定義されます。

ここで、以下のとおり式変形します。

<共分散>
以下のように定義されます。

<コサイン類似度>
(3)式と(5)式を比較すると、式の形が一致している事が分かります。つまり、cosθは相関係数rに相当し以下の関係になっているため、cosを求めることでデータの類似度を測ることができます。

サブチャンネルあります。⇒ 何かのお役に立てればと
|
|