Dataset({ features: ['text', 'footnote', 'meta'], num_rows: 10246 }) Filtered dataset size: 10,246 entries トークナイザー 青空文庫のデータのみで学習を行うということもあり、語彙に偏りがあることが想定されます。 そこで既存のトークナイザーを使うより専用のものを使用した方が良いだろうと考え自作することにしました。SentencePiece で unigram を学習しています。 一般的なCPUですが10分ほどで作成が完了しました。 パラメーターについて model_type: unigram 互換のトークン列を維持しつつ日本語特有の語尾を細かく刻みたかったので unigram を選択。 vocab_size: 32,000 なら GPT-2 Small と同じスケールの埋め込み行列です。