自然言語処理 -

日本語テキスト生成の精度が低い・コストが高い問題をT5で効率的に解決する方法

Posted on Sat Jul 5 2025 | 5 minutes | 2418 words |

日本語テキスト生成で直面する課題

日本語の文章要約、タイトル生成、文書分類などのタスクに取り組む際、以下のような問題に直面していませんか？

1. 精度の問題

従来のルールベース手法では自然な日本語文章が生成できない
英語向けモデルでは日本語の文法や表現に対応できない
複数のタスクで個別にモデルを構築する必要がある

2. 開発コストの問題

各タスク専用のモデル開発に時間とリソースがかかる
文書分類、要約、タイトル生成それぞれで異なるアプローチが必要
学習データの準備とモデル構築の工数が膨大

3. 運用の複雑さ

複数のモデルを管理・運用する必要がある
タスクごとに異なるAPIやインターフェース
モデルの更新やメンテナンスが煩雑

実際に遭遇したテキスト生成の課題事例

失敗事例：タスク別個別開発の限界

# 従来のアプローチ
classification_model = load_bert_classifier()      # 文書分類用
summarization_model = load_summarization_model()   # 要約用
title_generation_model = load_title_model()        # タイトル生成用

# 問題：
# - 3つのモデルを個別管理
# - メモリ使用量が3倍
# - 開発・保守コストが高い

この問題を解決するのが**日本語T5（Text-To-Text Transfer Transformer）**です。

[Read More]

技術系自然言語処理 T5 技術分散表現文生成課題解決要約

日本語文書の意味的類似度計算が遅い・精度が低い問題をSentence BERTで解決する方法

Posted on Sat Jul 5 2025 | 5 minutes | 2152 words |

文書類似度計算で直面する課題

日本語の文書検索や推薦システムを構築する際、以下のような問題に直面していませんか？

1. 精度の問題

単語レベルの一致だけでは文書の意味的類似度を正確に測れない
同じ意味でも表現が異なる文書を関連文書として発見できない
従来のTF-IDFやBM25では意味的な類似度が取得できない

2. 計算速度の問題

BERTモデルで毎回文書をエンコードすると時間がかかりすぎる
大量の文書との類似度計算がリアルタイムで実行できない
文書検索のレスポンス時間が数秒〜数十秒かかる

3. 日本語対応の問題

英語向けのモデルでは日本語の意味的類似度が正確に取得できない
日本語特有の表現や文法構造に対応していない
カスタムモデルの構築が困難

実際に遭遇した文書類似度の課題事例

失敗事例：従来手法での限界

# TF-IDFによる類似度計算の例
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 以下のような文書では類似度が正しく計算されない
doc1 = "機械学習の精度を向上させる方法"
doc2 = "AIモデルの性能を改善する手法"
# 結果: 低い類似度（単語が異なるため）

# BERTの直接利用も計算コストが高い
# 毎回エンコードが必要で、大量データに不向き

この問題を解決するのがSentence BERTです。

[Read More]

技術系自然言語処理 BERT 分散表現技術課題解決文書類似度

文書分類の精度・速度・導入コストの三重苦をFasttextで一気に解決する戦略

Posted on Sat Jul 5 2025 | 5 minutes | 2015 words |

文書分類で直面する三重苦

文書分類プロジェクトに取り組む際、以下のような問題に直面していませんか？

1. 精度の問題

既存の手法では十分な精度が出ない
複雑なディープラーニングモデルでも期待した結果が得られない
データセットによって性能が大きく左右される

2. 速度の問題

学習時間が長すぎてイテレーションが回せない
GPUリソースが必要で開発コストが高い
本格的なモデル訓練に数時間〜数日かかる

3. 導入コストの問題

複雑なモデルの構築・運用が困難
環境構築が複雑で他のメンバーに共有できない
プロトタイプ作成に時間がかかりすぎる

実際に遭遇した文書分類の課題事例

失敗事例：複雑なモデルでの挫折

# NeuralClassifierを使った事例
# 複雑な設定ファイルが必要
# GPU環境の準備が必要  
# 結果：精度が期待値以下、学習時間が長い

このような状況で、Facebook Research が公開するFasttextライブラリが解決策として注目されています。

[Read More]

技術系自然言語処理 fasttext 技術分散表現文書分類課題解決

日本語要約の手法・サービスのまとめ

Posted on Wed Mar 9 2022 | 2 minutes | 815 words |

日本語文章の自動要約について調べたのでまとめておく
原文から一部を選択的に抜粋する抽出型と機械翻訳のように対応する要約文を生成する生成型がある
またウェブで公開されている要約サービスもある

生成型要約

モデル

DNN　言語モデル
- BERTの文脈から派生した要約手法が多い
- BART
  - BERTから文の要約に特化して派生したもの
  - BART(文章要約モデル)は日本語に対応していない
- T5
  - 学習をすべて自然言語で設定して行うことで複数のタスクへと柔軟に対応する、というコンセプトのモデル
  - T5がhugging face で公開されたモデルをファインチューニングして使うことが割と手軽にできた
  - 要約だけでなく単語の分散表現を得ることにも使える
整数計画問題
- ソルバーで厳密に解くことができる
  - 無償のソルバーはpythonだとpulp, Python-MIPが選択肢になる
  - 式を記述する際の挙動の軽さから私はPython-MIPを勧める
- 制約条件として文の数、文字数を指定できる
- 計算時間が短いというわけではない
  - 定式化の問題か？
- 各モデル
  - 文全体が一つのトピックを扱っていると仮定して、その代表的な文を拾ってくるイメージ
  - McDonaldモデル
  - 最大被覆モデル
  - 施設配置モデル
    - 劣モジュラ最適化問題に帰着できる
    - 文の類似度を計算する必要がある
    - 原論文では単語の重複をスコアとしている
      - ROUGEみたいな
      - ２０２２年現在では文の分散表現を求めることもできるのでそこはケースバイケースで特徴量を選択する
LexRank
- 文間の類似度からグラフ関係を計算して、重要な文をランキングする
- 文字数の指定はできない
- Sentence Transformersのサイトに実装例がある
  - 日本語に適用するには多少の修正が必要になる
- 別に文の間の類似度が出せるならSBERTでなくてもいい
  - ROUGE, USEなど

サービス

イライザダイジェスト
- ３文に要約
- 割と内容を理解した出力をする印象
- 生成型特有のゆらぎが見られる
  - 不自然な箇所に句読点など
タンテキ
- ３文に要約
- 抜粋型か？

参考文献

文書要約のための数理的手法

要約 BART 技術系自然言語処理技術分散表現文生成

日本語の分散表現の計算方法まとめ

Posted on Wed Mar 2 2022 | 2 minutes | 585 words |

単語単位の分散表現

Word2vec
- 自然言語処理における分散表現の一つのオリジナル
- 基本原理くらいは知っていてもいいかもしれない
- gensimがよく使われる
Fasttext で文書分類問題までやったった
- fastと名前がついているだけあってfacebookが公開しているモデルは高速に動作する
- 分散表現とクラス分類に対応していたり、利便性が高い
- 特にこのモデルで利用されている分かち書きの特徴から未知語に強いとされている
日本語Wikipediaで学習済みのBERTが公開されているので使い方メモ
- Google の検索エンジンにも採用されている、らしい
- 自然言語処理の研究を大きく変えたモデル
- 関連する技術であるTransformerは自然言語処理だけでなく、画像処理の界隈にも流用された
- huggingfaceで日本語版のBERTも色々と公開されている
日本語に対応したT5
- この日本語版のモデルの作者が公開しているサンプルがわかりやすい
- また同じ作者がSBERTのモデルも公開している

文単位の分散表現

tf-idf
- 最初の選択肢
- 単語の出現頻度を計算してスコアを割り当てる
- gensimがよく使われる
BM25
- 単語の出現頻度を計算してスコアを出す
- QAモデルの最初の大雑把な検索によく使われる印象
doc2vec
- word2vecの文書版
- gensimがよく使われる
Universal Sentence Encoder
- 結構重宝する
- そこそこ性能もよく使い勝手がいい
SBERT
- GPUがないとしんどいかも
- 性能自体は上のUSEよりも体感ではいい

自然言語処理 T5 BERT Sentece Transformers SBERT word2vec fasttext

日本語で学習済みのT5がhugging face で公開されたので使い方メモ

Posted on Thu Jul 1 2021 | 8 minutes | 3624 words |

T5(Text-To-Text Transfer Transformer) とは

事前学習における入出力を文に統一してしまうことで、複数の形式の問題に対しても適応できる様式となった。
モデルの基本構造としては Transformer が使われており、その点はBERTと共通している。
事前学習の形式をすべてテキストによる指定にするというアイデアはGPT-3などでも用いられている。
- 0 shot learning など入力文で模範解答例を入力するだけで、出力を操作するということも行われている
- “操作の指定:入力文１、出力に期待する文、操作の指定：入力文２"で、“出力文２"が得られるという次第

できること

下流のタスクとして転移学習を行うことで以下のようなことが実行できる。
- 文書分類
- タイトル生成
- 文章生成
- 生成要約

生成要約の例

一つの原文から２種類の要約文を生成するファインチューニングが思いの外うまく働いた。

データとしては

[Read More]

自然言語処理 T5 技術

word2vecでteratailの検索システムっぽいものを作る

Posted on Fri Apr 16 2021 | 1 minutes | 150 words |

概要

分散表現を用いた検索システムを作る。

teratailから質問をスクレイピングする。
スクレイピングした文章をもとにword2vecを学習する。
word2vecによって得られた分散表現をもとにcosine similarityを計算して、クエリと質問文の類似度を得る。
類似度をもとにソートする。

ソース

teratail_w2v_question.ipynb

[Read More]

word2vec 分散表現自然言語処理技術技術系スクレイピング pytorch google colaboratory 制作物

ポートフォリオ

Posted on Thu Apr 8 2021 | 4 minutes | 1672 words |

実績

🚀 最新プロジェクト（2023-2025）

フルスタックWebアプリケーション

BookingButler - 出張管理自動化システム
- BookingButler：Googleカレンダー連携で出張管理を自動化するWebアプリ
- 技術スタック: Go + React + TypeScript, Google Calendar/Maps/NAVITIME API
- 成果: 手作業1時閕35分→自動処理10分に短縮
drive-gallery - メディア管理システム
[Read More]

制作物ポートフォリオ自然言語処理画像処理 python R

要約文の評価指標についてのメモ

Posted on Wed Jan 20 2021 | 1 minutes | 204 words |

生成式要約文のモデルに需要がある。

そのモデルの評価指標についてのめも。

結論としてはやはり正解になる文の用意は必要だということ。

そこを省きたいんだけどなぁ？

[Read More]

自然言語処理評価指標技術

python を用いた自然言語処理の環境を整える

Posted on Thu Jun 18 2020 | 2 minutes | 778 words |

この記事はコマンドラインをある程度利用できる方に向けて書いています。

コマンドラインがなにか分からないけど、pythonを使いたい方はGoogle Colaboratory というサービスの利用を検討してください。

[Read More]

技術系 python 自然言語処理技術環境構築