Streamlit と LangChain を組み合わせて、Google検索・Wikipedia検索ツールを持つ ChatGPT エージェントのWebUIを作りました。LangChain の ReAct(Reason + Act)エージェントが自律的にツールを選択して質問に答えます。
[Read More]
EasyOCRで日本語画像をテキスト化—セットアップから実運用まで
EasyOCRを使ってJPEG画像から日本語テキストを抽出するスクリプトを作りました。フォルダにまとめて置いた画像を一括処理し、テキストファイルに書き出します。日本語OCRの精度と前処理のコツも解説します。
[Read More]
GradioでAI水平思考クイズを作ってHugging Face Spacesにデプロイした話
水平思考クイズ(海亀スープ)のAI GMをGradioで作りました。Cohere の command-r-plus モデルが「はい」「いいえ」「わからない」で答えるGMを担当し、CSVで問題を管理します。Hugging Face Spacesに無料でデプロイしています。
[Read More]
Xのタイムラインを自動要約!FastAPI + LLMで作るトピックダイジェストシステムの設計
関心のあるトピック(キーワード)を登録すると、X(Twitter)の関連ツイートを収集しLLMで要約するWebアプリ「TopicDigestX」の設計を紹介します。FastAPI + SQLAlchemy + React + Viteの構成で、Docker Composeで手軽に起動できます。
[Read More]
ジムから住む場所を決める!Go + Reactで作る「筋肉不動産」アプリの設計
「まずジムを選んでから家を探す」という筋トレ愛好家向けの住まい探しWebアプリ「筋肉不動産」を開発しました。Go + Gin のClean Architectureバックエンドと、React + TypeScriptフロントエンドの実装を解説します。
[Read More]
Apple SiliconでLLMをファインチューニング!MLX + LoRAで日本語読解モデルを自作する方法
LiquidAI の LFM2.5-1.2B-JP モデルを Apple Silicon の MLX フレームワークで LoRA ファインチューニングするパイプラインを構築しました。JsQuAD(日本語読解)データセットで学習し、カスタム Chunked Loss と早期停止も実装しています。
[Read More]
バンドのセットリストをAIで自動生成!OR-Tools TSPで転換コストを最小化する方法
バンド「Luke Avenue」のセットリスト作成を自動化するスクリプトを開発しました。OR-ToolsのTSP(巡回セールスマン問題)ソルバーで、メンバー交代によるパート転換コストを最小化した最適な曲順を自動生成します。YouTube APIで曲の長さも自動取得します。
[Read More]
声を学習してテキスト読み上げ!TADAで作る日本語ボイスクローンTTSシステム
HumeAIのTADA(Text-Acoustic Dual Alignment)を使って、参照音声の声質でテキストを読み上げるボイスクローンTTSシステムを構築しました。FastAPIサーバーとCLIツールで構成し、日本語の読み上げに対応しています。
[Read More]
Xのいいねを資産化!Chrome拡張 + pgvector + DINOv2で作る画像レコメンドシステム
X(Twitter)でいいねした画像・動画を自動収集し、DINOv2の埋め込みベクトルとpgvectorで類似コンテンツをレコメンドするWebアプリを開発しました。Chrome拡張でいいねを収集し、VPSのDocker環境でセルフホストします。
[Read More]
漫画の続刊を買い忘れない!Go + Reactで作った続刊管理Webアプリ「tsuzukan」
手持ちの漫画・小説の続刊をピックアップし、Amazon/楽天のカート追加URLを自動生成するWebアプリ「tsuzukan(続刊)」を開発しました。Amazon・楽天の購入履歴CSVをインポートしてシリーズ管理し、新刊が出たら即カートに追加できます。
[Read More]