日本語要約の手法・サービスのまとめ -

生成型要約

モデル

DNN　言語モデル
- BERTの文脈から派生した要約手法が多い
- BART
  - BERTから文の要約に特化して派生したもの
  - BART(文章要約モデル)は日本語に対応していない
- T5
  - 学習をすべて自然言語で設定して行うことで複数のタスクへと柔軟に対応する、というコンセプトのモデル
  - T5がhugging face で公開されたモデルをファインチューニングして使うことが割と手軽にできた
  - 要約だけでなく単語の分散表現を得ることにも使える
整数計画問題
- ソルバーで厳密に解くことができる
  - 無償のソルバーはpythonだとpulp, Python-MIPが選択肢になる
  - 式を記述する際の挙動の軽さから私はPython-MIPを勧める
- 制約条件として文の数、文字数を指定できる
- 計算時間が短いというわけではない
  - 定式化の問題か？
- 各モデル
  - 文全体が一つのトピックを扱っていると仮定して、その代表的な文を拾ってくるイメージ
  - McDonaldモデル
  - 最大被覆モデル
  - 施設配置モデル
    - 劣モジュラ最適化問題に帰着できる
    - 文の類似度を計算する必要がある
    - 原論文では単語の重複をスコアとしている
      - ROUGEみたいな
      - ２０２２年現在では文の分散表現を求めることもできるのでそこはケースバイケースで特徴量を選択する
LexRank
- 文間の類似度からグラフ関係を計算して、重要な文をランキングする
- 文字数の指定はできない
- Sentence Transformersのサイトに実装例がある
  - 日本語に適用するには多少の修正が必要になる
- 別に文の間の類似度が出せるならSBERTでなくてもいい
  - ROUGE, USEなど

サービス

イライザダイジェスト
- ３文に要約
- 割と内容を理解した出力をする印象
- 生成型特有のゆらぎが見られる
  - 不自然な箇所に句読点など
タンテキ（サービス終了）
- ３文に要約
- 抜粋型か？

日本語テキスト生成の精度が低い・コストが高い問題をT5で解決

機械学習の基礎からモデルの仕組みまで体系的に学びたい方へ

Pythonではじめる機械学習

参考文献

文書要約のための数理的手法

関連書籍

Pythonではじめる機械学習

要約 BART 技術自然言語処理分散表現文生成機械学習 Python

日本語要約の手法・サービスのまとめ

目次

生成型要約

モデル

サービス

関連記事

参考文献

See also