日本語要約の手法・サービスのまとめ

Wed, 09 Mar 2022 14:51:58 +0900

日本語文章の自動要約について調べたのでまとめておく
原文から一部を選択的に抜粋する抽出型と機械翻訳のように対応する要約文を生成する生成型がある
またウェブで公開されている要約サービスもある

生成型要約

モデル

DNN　言語モデル
- BERTの文脈から派生した要約手法が多い
- BART
  - BERTから文の要約に特化して派生したもの
  - BART(文章要約モデル)は日本語に対応していない
- T5
  - 学習をすべて自然言語で設定して行うことで複数のタスクへと柔軟に対応する、というコンセプトのモデル
  - T5がhugging face で公開されたモデルをファインチューニングして使うことが割と手軽にできた
  - 要約だけでなく単語の分散表現を得ることにも使える
整数計画問題
- ソルバーで厳密に解くことができる
  - 無償のソルバーはpythonだとpulp, Python-MIPが選択肢になる
  - 式を記述する際の挙動の軽さから私はPython-MIPを勧める
- 制約条件として文の数、文字数を指定できる
- 計算時間が短いというわけではない
  - 定式化の問題か？
- 各モデル
  - 文全体が一つのトピックを扱っていると仮定して、その代表的な文を拾ってくるイメージ
  - McDonaldモデル
  - 最大被覆モデル
  - 施設配置モデル
    - 劣モジュラ最適化問題に帰着できる
    - 文の類似度を計算する必要がある
    - 原論文では単語の重複をスコアとしている
      - ROUGEみたいな
      - ２０２２年現在では文の分散表現を求めることもできるのでそこはケースバイケースで特徴量を選択する
LexRank
- 文間の類似度からグラフ関係を計算して、重要な文をランキングする
- 文字数の指定はできない
- Sentence Transformersのサイトに実装例がある
  - 日本語に適用するには多少の修正が必要になる
- 別に文の間の類似度が出せるならSBERTでなくてもいい
  - ROUGE, USEなど

サービス

イライザダイジェスト
- ３文に要約
- 割と内容を理解した出力をする印象
- 生成型特有のゆらぎが見られる
  - 不自然な箇所に句読点など
タンテキ
- ３文に要約
- 抜粋型か？

参考文献

文書要約のための数理的手法

深層学習でニュースタイトルの自動生成モデルつくったった

Fri, 12 Jun 2020 23:52:00 +0900

深層学習モデルを使って、新聞記事から見出しを自動で生成するモデルが提案されている。
朝日新聞が自動要約生成APIの提供を始めました。
- 自動要約生成API: TSUNA

追記

2022時点ならT5を使ってファインチューニングを試す方が簡単な気がする。

モデル概要

朝日新聞が研究に協力して取り組んでおり、transformerを基礎にして、文字数制約を組み込んだモデルが論文で提案されています。
さすが朝日新聞というべきか、莫大な教師データを使ってモデルの学習を行っています。
また文字数制約についても、位置エンコーディングを工夫することによって、指定した文字数を生成するようになったようです。
この辺り、フリーの言語リソースが日本語に少ないことには歯がゆさを感じます。

##　ニュースタイトルの自動生成モデルの作成

文生成 on サブカル科学研究会のブログ

日本語要約の手法・サービスのまとめ

生成型要約

モデル

サービス

参考文献

深層学習でニュースタイトルの自動生成モデルつくったった

追記

モデル概要