Mac mini M4でローカルLLMを動かすDiscord Bot—関西弁AIとニュース自動投稿の実装

Mac mini M4上のOllama(qwen2.5:14b)を使って、関西弁で雑談するDiscord Bot「ロブスター」を開発しました。クラウドAPIなしで動作し、はてなブックマーク・Zenn・Qiitaからのテックニュース自動投稿機能も実装しています。 [Read More]

ローカルLLMでデッサン添削アプリを作った!Ollama + Qwen3.5 + Go + Reactの構成

Ollama上で動くVLM(Qwen3.5)を使ってデッサン添削Webアプリを開発しました。iPadから写真を撮ってアップロードするだけで、AIが6つの評価項目ごとに10点満点でスコアとアドバイスを返します。クラウドAPIを使わないため、絵の内容が外部に送信されることもありません。 [Read More]

配信録画を自動で分割!FFmpegのsilencedetectで作る動画分割Webアプリ

FFmpegのsilencedetect フィルターを使って動画を無音区間で自動分割する Webアプリ「JamSlicer」を開発しました。従来の librosa/moviepy 実装と比べてメモリ使用量を 1/100 以下に抑えつつ、分割速度を10〜20倍に向上させた実装を解説します。 [Read More]

サークル写真管理の分散・重複問題をSHA256ハッシュで解決 - drive-gallery開発事例

はじめに

サークルやチームでイベントの写真・動画を管理していると、「どこに何の写真があったっけ?」「同じ写真が複数の場所にアップされている」といった問題に直面することはありませんか?本記事では、音楽セッショングループ「Luke Avenue」のメディア管理課題を解決するために開発した「drive-gallery」における分散・重複問題の技術的解決アプローチについて詳しく解説します。

[Read More]

LINEボットのユーザー獲得苦戦問題をMCP連携で解決 - turtle-buttler開発事例

はじめに

LINEボットを開発したけれど、ユーザーがなかなか定着しない──そんな悩みを抱えている開発者は多いのではないでしょうか。本記事では、筆者が開発したLINEボット「turtle-buttler」におけるユーザー獲得苦戦問題と、MCP(Modular Component Protocol)連携による解決アプローチについて詳しく解説します。

[Read More]

日本語文書の意味的類似度計算が遅い・精度が低い問題をSentence BERTで解決する方法

文書類似度計算で直面する課題

日本語の文書検索や推薦システムを構築する際、以下のような問題に直面していませんか?

1. 精度の問題

  • 単語レベルの一致だけでは文書の意味的類似度を正確に測れない
  • 同じ意味でも表現が異なる文書を関連文書として発見できない
  • 従来のTF-IDFやBM25では意味的な類似度が取得できない

2. 計算速度の問題

  • BERTモデルで毎回文書をエンコードすると時間がかかりすぎる
  • 大量の文書との類似度計算がリアルタイムで実行できない
  • 文書検索のレスポンス時間が数秒〜数十秒かかる

3. 日本語対応の問題

  • 英語向けのモデルでは日本語の意味的類似度が正確に取得できない
  • 日本語特有の表現や文法構造に対応していない
  • カスタムモデルの構築が困難

実際に遭遇した文書類似度の課題事例

失敗事例:従来手法での限界

# TF-IDFによる類似度計算の例
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 以下のような文書では類似度が正しく計算されない
doc1 = "機械学習の精度を向上させる方法"
doc2 = "AIモデルの性能を改善する手法"
# 結果: 低い類似度(単語が異なるため)

# BERTの直接利用も計算コストが高い
# 毎回エンコードが必要で、大量データに不向き

この問題を解決するのが**Sentence BERT**です。

[Read More]

文書分類の精度・速度・導入コストの三重苦をFasttextで一気に解決する戦略

文書分類で直面する三重苦

文書分類プロジェクトに取り組む際、以下のような問題に直面していませんか?

1. 精度の問題

  • 既存の手法では十分な精度が出ない
  • 複雑なディープラーニングモデルでも期待した結果が得られない
  • データセットによって性能が大きく左右される

2. 速度の問題

  • 学習時間が長すぎてイテレーションが回せない
  • GPUリソースが必要で開発コストが高い
  • 本格的なモデル訓練に数時間〜数日かかる

3. 導入コストの問題

  • 複雑なモデルの構築・運用が困難
  • 環境構築が複雑で他のメンバーに共有できない
  • プロトタイプ作成に時間がかかりすぎる

実際に遭遇した文書分類の課題事例

失敗事例:複雑なモデルでの挫折

# NeuralClassifierを使った事例
# 複雑な設定ファイルが必要
# GPU環境の準備が必要  
# 結果:精度が期待値以下、学習時間が長い

このような状況で、Facebook Researchが公開するFasttextライブラリが解決策として注目されています。

[Read More]

機械学習実験が管理できず再現性がない問題をMLflowで体系的に解決する方法

機械学習実験で直面する再現性の課題

機械学習の実験を繰り返していると、以下のような問題に直面することがありませんか?

  • 良い結果が出たモデルのパラメータを忘れてしまう
  • 過去の実験結果を比較できず、改善が進まない
  • チームメンバーと実験結果を共有できない
  • 同じ実験を再実行しても結果が再現できない

これらの問題は、機械学習の実践が「ある種の黒魔術」となってしまう原因でもあります。

[Read More]

キーワード検索では見つからない関連文書を発見する方法

セマンティック検索で解決する文書検索の限界

問題:なぜキーワード検索では欲しい文書が見つからないのか

社内の膨大な文書データベースから「機械学習の性能向上に関する文書」を探しているとします。キーワード検索で「機械学習」「性能向上」と入力しても、本当に必要な文書が見つからない経験はありませんか?

[Read More]