EasyOCRを使ってJPEG画像から日本語テキストを抽出するスクリプトを作りました。フォルダにまとめて置いた画像を一括処理し、テキストファイルに書き出します。日本語OCRの精度と前処理のコツも解説します。
[Read More]
Apple SiliconでLLMをファインチューニング!MLX + LoRAで日本語読解モデルを自作する方法
LiquidAI の LFM2.5-1.2B-JP モデルを Apple Silicon の MLX フレームワークで LoRA ファインチューニングするパイプラインを構築しました。JsQuAD(日本語読解)データセットで学習し、カスタム Chunked Loss と早期停止も実装しています。
[Read More]
日本語文書の意味的類似度計算が遅い・精度が低い問題をSentence BERTで解決する方法
文書類似度計算で直面する課題
日本語の文書検索や推薦システムを構築する際、以下のような問題に直面していませんか?
1. 精度の問題
- 単語レベルの一致だけでは文書の意味的類似度を正確に測れない
- 同じ意味でも表現が異なる文書を関連文書として発見できない
- 従来のTF-IDFやBM25では意味的な類似度が取得できない
2. 計算速度の問題
- BERTモデルで毎回文書をエンコードすると時間がかかりすぎる
- 大量の文書との類似度計算がリアルタイムで実行できない
- 文書検索のレスポンス時間が数秒〜数十秒かかる
3. 日本語対応の問題
- 英語向けのモデルでは日本語の意味的類似度が正確に取得できない
- 日本語特有の表現や文法構造に対応していない
- カスタムモデルの構築が困難
実際に遭遇した文書類似度の課題事例
失敗事例:従来手法での限界
# TF-IDFによる類似度計算の例
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 以下のような文書では類似度が正しく計算されない
doc1 = "機械学習の精度を向上させる方法"
doc2 = "AIモデルの性能を改善する手法"
# 結果: 低い類似度(単語が異なるため)
# BERTの直接利用も計算コストが高い
# 毎回エンコードが必要で、大量データに不向き
この問題を解決するのが**Sentence BERT**です。
[Read More]文書分類の精度・速度・導入コストの三重苦をFasttextで一気に解決する戦略
文書分類で直面する三重苦
文書分類プロジェクトに取り組む際、以下のような問題に直面していませんか?
1. 精度の問題
- 既存の手法では十分な精度が出ない
- 複雑なディープラーニングモデルでも期待した結果が得られない
- データセットによって性能が大きく左右される
2. 速度の問題
- 学習時間が長すぎてイテレーションが回せない
- GPUリソースが必要で開発コストが高い
- 本格的なモデル訓練に数時間〜数日かかる
3. 導入コストの問題
- 複雑なモデルの構築・運用が困難
- 環境構築が複雑で他のメンバーに共有できない
- プロトタイプ作成に時間がかかりすぎる
実際に遭遇した文書分類の課題事例
失敗事例:複雑なモデルでの挫折
# NeuralClassifierを使った事例
# 複雑な設定ファイルが必要
# GPU環境の準備が必要
# 結果:精度が期待値以下、学習時間が長い
このような状況で、Facebook Researchが公開するFasttextライブラリが解決策として注目されています。
[Read More]機械学習実験が管理できず再現性がない問題をMLflowで体系的に解決する方法
機械学習実験で直面する再現性の課題
機械学習の実験を繰り返していると、以下のような問題に直面することがありませんか?
- 良い結果が出たモデルのパラメータを忘れてしまう
- 過去の実験結果を比較できず、改善が進まない
- チームメンバーと実験結果を共有できない
- 同じ実験を再実行しても結果が再現できない
これらの問題は、機械学習の実践が「ある種の黒魔術」となってしまう原因でもあります。
[Read More]キーワード検索では見つからない関連文書を発見する方法
セマンティック検索で解決する文書検索の限界
問題:なぜキーワード検索では欲しい文書が見つからないのか
社内の膨大な文書データベースから「機械学習の性能向上に関する文書」を探しているとします。キーワード検索で「機械学習」「性能向上」と入力しても、本当に必要な文書が見つからない経験はありませんか?
[Read More]少ないデータで高精度な文書分類を実現する戦略
データ不足という現実的制約下でのFew-shot学習とTransfer Learning活用法
問題:なぜ実際のプロジェクトでは十分なデータが集まらないのか
「ニュース記事を『政治・経済・スポーツ・エンタメ』に自動分類したい。でも各カテゴリ30件ずつしかラベル付きデータがない…」
機械学習の教科書では数万件のデータセットが当たり前ですが、実際のビジネス現場では全く異なります。
[Read More]日本語自然言語処理で直面する現実的な課題と解決策
文字化け、分かち書き、敬語処理など、日本語特有の問題を技術的に克服する方法
問題:なぜ日本語のテキスト処理は難しいのか
「英語のNLPライブラリを日本語に適用したら、全然うまくいかない…」
日本語の自然言語処理は、英語中心に設計されたツールでは対応できない独特な課題が多数存在します。
[Read More]機械学習実験の混乱を解決する:再現できない結果との戦い
パラメータ管理とMLflowによる実験追跡の実践的解決法
問題:なぜ機械学習の実験結果が再現できないのか
「先週良い結果が出たモデルがあったんだけど、どのパラメータを使ったか覚えてる?」
機械学習プロジェクトでこんな会話を聞いたことはありませんか?多くのチームが直面する典型的な問題です。
[Read More]poetry環境でpytorchをインストールしても失敗したのでその対処法
poetry add torch でパスが通らない
- Dcokerfile+Poetryで環境構築をしていた
poetry add torchでpytorchをインストールしたimport torchでエラー- cuda周りのパスが通っていないらしい
対処法
poetry run python -m pip install torch- poetry.tomlに記述することもできるらしい
機械学習の基礎からモデルの仕組みまで体系的に学びたい方へ
[Read More]