|
前提知識
ホールドアウト検証、交差検証とは、機械学習においてモデルがどれだけオーバーフィッティングされておらず汎化性能を持っているか評価するため、またはハイパーパラメータ(学習率など人間が試行錯誤で決めるパラメータ)を調整するための手法です。
■訓練データ、検証データ、テストデータの違い
ホールドアウト検証、交差検証を説明する前に、これらデータの意味を説明します。学習/テストの基本的な流れは、先に訓練データを用いてパラメータを学習させ、その後テストデータを用いて学習器の精度を評価します。
テストデータはパラメータの学習に使用してはならず、最後のテストの時に1回だけ使用するのが理想的です。

ハイパーパラメータを調整する場合、訓練データとは別に検証データを用意するか、訓練データを分割して検証データを用意し、検証データでハイパーパラメータを調整します。

■ホールドアウト検証:Hold-out validation
データを訓練用データと検証用データに2分割、固定して評価します。複数回評価するときも常にこのパターンで学習させていきます。

■交差検証:Cross validation
訓練用と検証用の分割パターンを変更して、評価します。この方がホールドアウト検証より効率的に汎化性能が高められるのがメリットですが、計算時間が分割数倍だけ長くなるのがデメリットです。
分割数をkとしてk-分割交差検証ともいいます。下記は4分割の例。

サブチャンネルあります。⇒ 何かのお役に立てればと
|
|