|
前提知識
・Pythonとは
seqGANでは、学習させたい文章を数値化して学習機に入力させる必要があります。
ここではpythonで青空文庫にある文章をseqGANの学習機に入力できるような形に変換する方法を説明します。
■変換の流れ
以下のとおりとなります。ファイルは手動でダウンロードしておき、その後の手順をpythonで実行します。

① ファイルから本文抽出
ダウンロードしたファイルには、注釈などのseqGANには不要な情報が入っておりますので、それを取り除きます。
具体的な方法はこちらで説明します。
② 本文を形態素解析する
文章をどのような単語によって成り立っているか形態素解析します。
具体的な方法はこちらで説明します。
③ 各単語から辞書を作成し、辞書に基づき文章からID生成
ここでは、文章から生成されたID情報を生成するだけではなく、seqGANで生成したID情報を自然言語に変換するための辞書も作成します。
具体的な方法はこちらで説明します。
■pythonによる実装
プログラムファイルは以下になります。
・python : 3.9.5
・プログラムファイル:doc2id.zip
サブチャンネルあります。⇒ 何かのお役に立てればと
|
|