python を用いた自然言語処理の環境を整える

目次

この記事はコマンドラインをある程度利用できる方に向けて書いています。

コマンドラインがなにか分からないけど、pythonを使いたい方はGoogle Colaboratory というサービスの利用を検討してください。

実行環境の整備

**形態素解析 **

  • 次に前処理を行います。
  • 日本語の場合は形態素解析を用いたトークナイズが必須となります。
  • python 上で形態素解析を行えるライブラリとしてjanomeやginzaがあります。
  • どちらもpipコマンドを実行することで簡単にインストールできます。
  • 詳細は各ホームページを参照してください。

文や単語の特徴量

  • 文はそのままでは計算機は単語や文章の意味を扱うことができません。
  • そこでいくつかの方法で単語の意味を表現しようという試みがあります。

単語の出現頻度による特徴量

  • 単語の出現頻度を特徴量として扱うものとして、TF-IDFがあります。
  • TF-IDF の詳細や利用方法については工事中です。
  • とりあえずは以下を参照してください。scikit-learn で tf-idf を求める

分散表現を用いる方法

実際のアルゴリズムの動作に興味がある人は以下を参照してください。


See also