目次
- 日本語文章の自動要約について調べたのでまとめておく
- 原文から一部を選択的に抜粋する抽出型と機械翻訳のように対応する要約文を生成する生成型がある
- またウェブで公開されている要約サービスもある
生成型要約
モデル
- DNN 言語モデル
- BERTの文脈から派生した要約手法が多い
- BART
- BERTから文の要約に特化して派生したもの
- BART(文章要約モデル)は日本語に対応していない
- T5
- 学習をすべて自然言語で設定して行うことで複数のタスクへと柔軟に対応する、というコンセプトのモデル
- T5がhugging face で公開されたモデルをファインチューニングして使うことが割と手軽にできた
- 要約だけでなく単語の分散表現を得ることにも使える
- 整数計画問題
- ソルバーで厳密に解くことができる
- 無償のソルバーはpythonだとpulp, Python-MIPが選択肢になる
- 式を記述する際の挙動の軽さから私はPython-MIPを勧める
- 制約条件として文の数、文字数を指定できる
- 計算時間が短いというわけではない
- 定式化の問題か?
- 各モデル
- 文全体が一つのトピックを扱っていると仮定して、その代表的な文を拾ってくるイメージ
- McDonaldモデル
- 最大被覆モデル
- 施設配置モデル
- 劣モジュラ最適化問題に帰着できる
- 文の類似度を計算する必要がある
- 原論文では単語の重複をスコアとしている
- ROUGEみたいな
- 2022年現在では文の分散表現を求めることもできるのでそこはケースバイケースで特徴量を選択する
- ソルバーで厳密に解くことができる
- LexRank
サービス
- イライザダイジェスト
- 3文に要約
- 割と内容を理解した出力をする印象
- 生成型特有のゆらぎが見られる
- 不自然な箇所に句読点など
- タンテキ
- 3文に要約
- 抜粋型か?