単語単位の分散表現
- Word2vec
- 自然言語処理における分散表現の一つのオリジナル
- 基本原理くらいは知っていてもいいかもしれない
- gensimがよく使われる
- Fasttext で文書分類問題までやったった
- fastと名前がついているだけあってfacebookが公開しているモデルは高速に動作する
- 分散表現とクラス分類に対応していたり、利便性が高い
- 特にこのモデルで利用されている分かち書きの特徴から未知語に強いとされている
- 日本語Wikipediaで学習済みのBERTが公開されているので使い方メモ
- Google の検索エンジンにも採用されている、らしい
- 自然言語処理の研究を大きく変えたモデル
- 関連する技術であるTransformerは自然言語処理だけでなく、画像処理の界隈にも流用された
- huggingfaceで日本語版のBERTも色々と公開されている
- 日本語に対応したT5
- この日本語版のモデルの作者が公開しているサンプルがわかりやすい
- また同じ作者がSBERTのモデルも公開している
機械学習の基礎からモデルの仕組みまで体系的に学びたい方へ
[Read More]