目次 概要 ソース 概要 分散表現を用いた検索システムを作る。 teratailから質問をスクレイピングする。 スクレイピングした文章をもとにword2vecを学習する。 word2vecによって得られた分散表現をもとにcosine similarityを計算して、クエリと質問文の類似度を得る。 類似度をもとにソートする。 ソース teratail_w2v_question.ipynb word2vec 分散表現 自然言語処理 技術 技術系 スクレイピング pytorch google colaboratory 制作物 See also 日本語文書の意味的類似度計算が遅い・精度が低い問題をSentence BERTで解決する方法 文書分類の精度・速度・導入コストの三重苦をFasttextで一気に解決する戦略 機械学習実験が管理できず再現性がない問題をMLflowで体系的に解決する方法 poetry環境でpytorchをインストールしても失敗したのでその対処法 日本語要約の手法・サービスのまとめ