コサイン類似度とは ベクトルの内積と共分散の関係



数学

公開日:2023/1/29         

 ・In English
前提知識
 ・ベクトルの内積
 ・共分散


■コサイン類似度とは

コサイン類似度とは、二つのベクトルの向きがどれくらい同じ方向に向いているか、その類似度をベクトルの内積を用いて表した指標です。 サンプルデータをベクトルに置き換え、コサイン類似度を求めることで、データの類似性を見出すことができます。 コサイン類似度の使用例として、自然言語処理において単語や文章をベクトル化することで、その類似度を測る場合や、サンプルデータの類似度から回帰分析(ex:カーネル回帰)する際などにも使用されます。

内積と共分散の関係を理解すると、何故内積でベクトルの類似度が測ることができるのかイメージできます。

■ベクトルの内積と共分散の関係性

<ベクトルの内積>

以下のように定義されます。



ここで、以下のとおり式変形します。



<共分散>

相関係数rは共分散を用いて以下のように定義されます。rが1に近づくほど、サンプルxとyが類似している事を意味します。



<コサイン類似度>

(3)式と(5)式を比較すると、式の形が一致している事が分かります。つまり、cosθは相関係数rに相当し以下の関係になっているため、cosを求めることでデータの類似度を測ることができます。











サブチャンネルあります。⇒ 何かのお役に立てればと

関連記事一覧



数学