<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>文生成 on サブカル科学研究会のブログ</title>
    <link>https://www.subcul-science.com/tags/%E6%96%87%E7%94%9F%E6%88%90/</link>
    <description>Recent content in 文生成 on サブカル科学研究会のブログ</description>
    <generator>Hugo</generator>
    <language>en</language>
    <lastBuildDate>Wed, 09 Mar 2022 14:51:58 +0900</lastBuildDate>
    <atom:link href="https://www.subcul-science.com/tags/%E6%96%87%E7%94%9F%E6%88%90/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>日本語要約の手法・サービスのまとめ</title>
      <link>https://www.subcul-science.com/post/20220309summarize-matome/</link>
      <pubDate>Wed, 09 Mar 2022 14:51:58 +0900</pubDate>
      <guid>https://www.subcul-science.com/post/20220309summarize-matome/</guid>
      <description>&lt;ul&gt;&#xA;&lt;li&gt;日本語文章の自動要約について調べたのでまとめておく&lt;/li&gt;&#xA;&lt;li&gt;原文から一部を選択的に抜粋する抽出型と機械翻訳のように対応する要約文を生成する生成型がある&lt;/li&gt;&#xA;&lt;li&gt;またウェブで公開されている要約サービスもある&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;生成型要約&#34;&gt;生成型要約&lt;/h2&gt;&#xA;&lt;h3 id=&#34;モデル&#34;&gt;モデル&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;DNN　言語モデル&#xA;&lt;ul&gt;&#xA;&lt;li&gt;BERTの文脈から派生した要約手法が多い&lt;/li&gt;&#xA;&lt;li&gt;BART&#xA;&lt;ul&gt;&#xA;&lt;li&gt;BERTから文の要約に特化して派生したもの&lt;/li&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://www.subcul-science.com/post/20210119huggingface/&#34;&gt;BART(文章要約モデル)&lt;/a&gt;は日本語に対応していない&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;T5&#xA;&lt;ul&gt;&#xA;&lt;li&gt;学習をすべて自然言語で設定して行うことで複数のタスクへと柔軟に対応する、というコンセプトのモデル&lt;/li&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://www.subcul-science.com/post/20210701t5/&#34;&gt;T5がhugging face で公開&lt;/a&gt;されたモデルをファインチューニングして使うことが割と手軽にできた&lt;/li&gt;&#xA;&lt;li&gt;要約だけでなく単語の分散表現を得ることにも使える&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;整数計画問題&#xA;&lt;ul&gt;&#xA;&lt;li&gt;ソルバーで厳密に解くことができる&#xA;&lt;ul&gt;&#xA;&lt;li&gt;無償のソルバーはpythonだと&lt;a href=&#34;https://coin-or.github.io/pulp/index.html&#34;&gt;pulp&lt;/a&gt;, &lt;a href=&#34;https://www.python-mip.com/&#34;&gt;Python-MIP&lt;/a&gt;が選択肢になる&lt;/li&gt;&#xA;&lt;li&gt;式を記述する際の挙動の軽さから私はPython-MIPを勧める&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;制約条件として文の数、文字数を指定できる&lt;/li&gt;&#xA;&lt;li&gt;計算時間が短いというわけではない&#xA;&lt;ul&gt;&#xA;&lt;li&gt;定式化の問題か？&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;各モデル&#xA;&lt;ul&gt;&#xA;&lt;li&gt;文全体が一つのトピックを扱っていると仮定して、その代表的な文を拾ってくるイメージ&lt;/li&gt;&#xA;&lt;li&gt;McDonaldモデル&lt;/li&gt;&#xA;&lt;li&gt;最大被覆モデル&lt;/li&gt;&#xA;&lt;li&gt;施設配置モデル&#xA;&lt;ul&gt;&#xA;&lt;li&gt;劣モジュラ最適化問題に帰着できる&lt;/li&gt;&#xA;&lt;li&gt;文の類似度を計算する必要がある&lt;/li&gt;&#xA;&lt;li&gt;原論文では単語の重複をスコアとしている&#xA;&lt;ul&gt;&#xA;&lt;li&gt;ROUGEみたいな&lt;/li&gt;&#xA;&lt;li&gt;２０２２年現在では&lt;a href=&#34;https://www.subcul-science.com/post/20220302embedding-matome/&#34;&gt;文の分散表現を求める&lt;/a&gt;こともできるのでそこはケースバイケースで特徴量を選択する&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;LexRank&#xA;&lt;ul&gt;&#xA;&lt;li&gt;文間の類似度からグラフ関係を計算して、重要な文をランキングする&lt;/li&gt;&#xA;&lt;li&gt;文字数の指定はできない&lt;/li&gt;&#xA;&lt;li&gt;Sentence Transformersのサイトに&lt;a href=&#34;https://sbert.net/examples/applications/text-summarization/README.html&#34;&gt;実装例&lt;/a&gt;がある&#xA;&lt;ul&gt;&#xA;&lt;li&gt;日本語に適用するには多少の修正が必要になる&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;別に文の間の類似度が出せるならSBERTでなくてもいい&#xA;&lt;ul&gt;&#xA;&lt;li&gt;ROUGE, &lt;a href=&#34;https://www.subcul-science.com/post/universal-sentence-encoder/&#34;&gt;USE&lt;/a&gt;など&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;サービス&#34;&gt;サービス&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://www.digest.elyza.ai/&#34;&gt;イライザダイジェスト&lt;/a&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;３文に要約&lt;/li&gt;&#xA;&lt;li&gt;割と内容を理解した出力をする印象&lt;/li&gt;&#xA;&lt;li&gt;生成型特有のゆらぎが見られる&#xA;&lt;ul&gt;&#xA;&lt;li&gt;不自然な箇所に句読点など&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;タンテキ（サービス終了）&#xA;&lt;ul&gt;&#xA;&lt;li&gt;３文に要約&lt;/li&gt;&#xA;&lt;li&gt;抜粋型か？&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;関連記事&#34;&gt;関連記事&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://www.subcul-science.com/post/20250705japanese-text-generation-solution/&#34;&gt;日本語テキスト生成の精度が低い・コストが高い問題をT5で解決&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;hr&gt;&#xA;&lt;p&gt;&lt;strong&gt;機械学習の基礎からモデルの仕組みまで体系的に学びたい方へ&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>深層学習でニュースタイトルの自動生成モデルつくったった</title>
      <link>https://www.subcul-science.com/post/20200612dnnabstractnewstitle/</link>
      <pubDate>Fri, 12 Jun 2020 23:52:00 +0900</pubDate>
      <guid>https://www.subcul-science.com/post/20200612dnnabstractnewstitle/</guid>
      <description>&lt;ul&gt;&#xA;&lt;li&gt;深層学習モデルを使って、新聞記事から見出しを自動で生成するモデルが提案されている。&lt;/li&gt;&#xA;&lt;li&gt;朝日新聞が自動要約生成APIの提供を始めました。&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;a href=&#34;https://cl.asahi.com/api_data/headlinegeneration.html&#34;&gt;自動要約生成API: TSUNA&#xA;&lt;/a&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;追記&#34;&gt;追記&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;2022時点なら&lt;a href=&#34;https://www.subcul-science.com/post/20210701t5/&#34;&gt;T5を使ってファインチューニングを試す&lt;/a&gt;方が簡単な気がする。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;モデル概要&#34;&gt;モデル概要&lt;/h2&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;朝日新聞が研究に協力して取り組んでおり、transformerを基礎にして、文字数制約を組み込んだモデルが論文で提案されています。&lt;/li&gt;&#xA;&lt;li&gt;さすが朝日新聞というべきか、莫大な教師データを使ってモデルの学習を行っています。&lt;/li&gt;&#xA;&lt;li&gt;また文字数制約についても、位置エンコーディングを工夫することによって、指定した文字数を生成するようになったようです。&lt;/li&gt;&#xA;&lt;li&gt;この辺り、フリーの言語リソースが日本語に少ないことには歯がゆさを感じます。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;##　ニュースタイトルの自動生成モデルの作成&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
