Word2vec -

日本語の分散表現の計算方法まとめ

Posted on Wed Mar 2 2022 | 2 minutes | 585 words |

Word2vec
- 自然言語処理における分散表現の一つのオリジナル
- 基本原理くらいは知っていてもいいかもしれない
- gensimがよく使われる
Fasttext で文書分類問題までやったった
- fastと名前がついているだけあってfacebookが公開しているモデルは高速に動作する
- 分散表現とクラス分類に対応していたり、利便性が高い
- 特にこのモデルで利用されている分かち書きの特徴から未知語に強いとされている
日本語Wikipediaで学習済みのBERTが公開されているので使い方メモ
- Google の検索エンジンにも採用されている、らしい
- 自然言語処理の研究を大きく変えたモデル
- 関連する技術であるTransformerは自然言語処理だけでなく、画像処理の界隈にも流用された
- huggingfaceで日本語版のBERTも色々と公開されている
日本語に対応したT5
- この日本語版のモデルの作者が公開しているサンプルがわかりやすい
- また同じ作者がSBERTのモデルも公開している

自然言語処理 T5 BERT Sentece Transformers SBERT word2vec fasttext

Posted on Fri Apr 16 2021 | 1 minutes | 150 words |

分散表現を用いた検索システムを作る。

[Read More]

word2vec 分散表現自然言語処理技術技術系スクレイピング pytorch google colaboratory 制作物

Posted on Wed Jun 17 2020 | 1 minutes | 482 words |

word2vec のアルゴリズムについて、勉強しようとして苦戦していませんか？
- アルゴリズムの基になる発想は意外に直観的なものですが、その直観をアルゴリズムの記述から読み取るのはコツが要るかもしれません。
- 実際に動くモデルで遊んでみて、反応をみながら感覚を掴むといいと思います。
- 一行単位で実行できるプログラムを自分の手で動かしながら、出力を確認できると分かりやすいと思いませんか？

そこでGoogle Colaboratory というサービスを利用して、手軽にword2vecを動かして、アルゴリズムの仕組みを理解しましょう！
- Google Colaboratory はGoogleが提供しているサービスです。
- Gmailのアカウントを持っていれば環境構築の手間が省け、Googleの計算資源を利用できるものです。
そこでword2vecを動かせるプログラムを用意しました。
このプログラムは技術書典というイベントで頒布させていただき、50以上の方に利用していただきました。

技術系自然言語処理 word2vec python 技術分散表現制作物