<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>課題解決 on サブカル科学研究会のブログ</title>
    <link>https://www.subcul-science.com/tags/%E8%AA%B2%E9%A1%8C%E8%A7%A3%E6%B1%BA/</link>
    <description>Recent content in 課題解決 on サブカル科学研究会のブログ</description>
    <generator>Hugo</generator>
    <language>en</language>
    <lastBuildDate>Sat, 05 Jul 2025 20:32:15 +0900</lastBuildDate>
    <atom:link href="https://www.subcul-science.com/tags/%E8%AA%B2%E9%A1%8C%E8%A7%A3%E6%B1%BA/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>日本語文書の意味的類似度計算が遅い・精度が低い問題をSentence BERTで解決する方法</title>
      <link>https://www.subcul-science.com/post/20250705document-similarity-solution/</link>
      <pubDate>Sat, 05 Jul 2025 20:32:15 +0900</pubDate>
      <guid>https://www.subcul-science.com/post/20250705document-similarity-solution/</guid>
      <description>&lt;h2 id=&#34;文書類似度計算で直面する課題&#34;&gt;文書類似度計算で直面する課題&lt;/h2&gt;&#xA;&lt;p&gt;日本語の文書検索や推薦システムを構築する際、以下のような問題に直面していませんか？&lt;/p&gt;&#xA;&lt;h3 id=&#34;1-精度の問題&#34;&gt;1. 精度の問題&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;単語レベルの一致だけでは文書の意味的類似度を正確に測れない&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;同じ意味でも表現が異なる文書を関連文書として発見できない&lt;/li&gt;&#xA;&lt;li&gt;従来のTF-IDFやBM25では意味的な類似度が取得できない&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;2-計算速度の問題&#34;&gt;2. 計算速度の問題&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;BERTモデルで毎回文書をエンコードすると時間がかかりすぎる&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;大量の文書との類似度計算がリアルタイムで実行できない&lt;/li&gt;&#xA;&lt;li&gt;文書検索のレスポンス時間が数秒〜数十秒かかる&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;3-日本語対応の問題&#34;&gt;3. 日本語対応の問題&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;英語向けのモデルでは日本語の意味的類似度が正確に取得できない&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;日本語特有の表現や文法構造に対応していない&lt;/li&gt;&#xA;&lt;li&gt;カスタムモデルの構築が困難&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;実際に遭遇した文書類似度の課題事例&#34;&gt;実際に遭遇した文書類似度の課題事例&lt;/h2&gt;&#xA;&lt;h3 id=&#34;失敗事例従来手法での限界&#34;&gt;失敗事例：従来手法での限界&lt;/h3&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# TF-IDFによる類似度計算の例&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;sklearn.feature_extraction.text&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;TfidfVectorizer&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;kn&#34;&gt;from&lt;/span&gt; &lt;span class=&#34;nn&#34;&gt;sklearn.metrics.pairwise&lt;/span&gt; &lt;span class=&#34;kn&#34;&gt;import&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;cosine_similarity&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 以下のような文書では類似度が正しく計算されない&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;doc1&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;機械学習の精度を向上させる方法&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;doc2&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;AIモデルの性能を改善する手法&amp;#34;&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 結果: 低い類似度（単語が異なるため）&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# BERTの直接利用も計算コストが高い&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 毎回エンコードが必要で、大量データに不向き&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;この問題を解決するのが**&lt;a href=&#34;https://github.com/UKPLab/sentence-transformers&#34;&gt;Sentence BERT&lt;/a&gt;**です。&lt;/p&gt;</description>
    </item>
    <item>
      <title>文書分類の精度・速度・導入コストの三重苦をFasttextで一気に解決する戦略</title>
      <link>https://www.subcul-science.com/post/20250705document-classification-solution/</link>
      <pubDate>Sat, 05 Jul 2025 20:28:41 +0900</pubDate>
      <guid>https://www.subcul-science.com/post/20250705document-classification-solution/</guid>
      <description>&lt;h2 id=&#34;文書分類で直面する三重苦&#34;&gt;文書分類で直面する三重苦&lt;/h2&gt;&#xA;&lt;p&gt;文書分類プロジェクトに取り組む際、以下のような問題に直面していませんか？&lt;/p&gt;&#xA;&lt;h3 id=&#34;1-精度の問題&#34;&gt;1. 精度の問題&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;既存の手法では十分な精度が出ない&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;複雑なディープラーニングモデルでも期待した結果が得られない&lt;/li&gt;&#xA;&lt;li&gt;データセットによって性能が大きく左右される&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;2-速度の問題&#34;&gt;2. 速度の問題&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;学習時間が長すぎてイテレーションが回せない&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;GPUリソースが必要で開発コストが高い&lt;/li&gt;&#xA;&lt;li&gt;本格的なモデル訓練に数時間〜数日かかる&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;3-導入コストの問題&#34;&gt;3. 導入コストの問題&lt;/h3&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;複雑なモデルの構築・運用が困難&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;環境構築が複雑で他のメンバーに共有できない&lt;/li&gt;&#xA;&lt;li&gt;プロトタイプ作成に時間がかかりすぎる&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h2 id=&#34;実際に遭遇した文書分類の課題事例&#34;&gt;実際に遭遇した文書分類の課題事例&lt;/h2&gt;&#xA;&lt;h3 id=&#34;失敗事例複雑なモデルでの挫折&#34;&gt;失敗事例：複雑なモデルでの挫折&lt;/h3&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# NeuralClassifierを使った事例&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 複雑な設定ファイルが必要&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# GPU環境の準備が必要  &lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 結果：精度が期待値以下、学習時間が長い&lt;/span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;このような状況で、&lt;strong&gt;&lt;a href=&#34;https://research.facebook.com/&#34;&gt;Facebook Research&lt;/a&gt;が公開する&lt;a href=&#34;https://fasttext.cc/&#34;&gt;Fasttext&lt;/a&gt;ライブラリ&lt;/strong&gt;が解決策として注目されています。&lt;/p&gt;</description>
    </item>
    <item>
      <title>機械学習実験が管理できず再現性がない問題をMLflowで体系的に解決する方法</title>
      <link>https://www.subcul-science.com/post/20250705ml-experiment-chaos-solution/</link>
      <pubDate>Sat, 05 Jul 2025 20:23:24 +0900</pubDate>
      <guid>https://www.subcul-science.com/post/20250705ml-experiment-chaos-solution/</guid>
      <description>&lt;h2 id=&#34;機械学習実験で直面する再現性の課題&#34;&gt;機械学習実験で直面する再現性の課題&lt;/h2&gt;&#xA;&lt;p&gt;機械学習の実験を繰り返していると、以下のような問題に直面することがありませんか？&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;良い結果が出たモデルのパラメータを忘れてしまう&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;過去の実験結果を比較できず、改善が進まない&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;チームメンバーと実験結果を共有できない&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;li&gt;&lt;strong&gt;同じ実験を再実行しても結果が再現できない&lt;/strong&gt;&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;これらの問題は、機械学習の実践が「ある種の黒魔術」となってしまう原因でもあります。&lt;/p&gt;</description>
    </item>
    <item>
      <title>キーワード検索では見つからない関連文書を発見する方法</title>
      <link>https://www.subcul-science.com/post/20250620document-similarity-solution/</link>
      <pubDate>Fri, 20 Jun 2025 00:00:00 +0000</pubDate>
      <guid>https://www.subcul-science.com/post/20250620document-similarity-solution/</guid>
      <description>&lt;h2 id=&#34;問題なぜキーワード検索では欲しい文書が見つからないのか&#34;&gt;問題：なぜキーワード検索では欲しい文書が見つからないのか&lt;/h2&gt;&#xA;&lt;p&gt;社内の膨大な文書データベースから「機械学習の性能向上に関する文書」を探しているとします。キーワード検索で「機械学習」「性能向上」と入力しても、本当に必要な文書が見つからない経験はありませんか？&lt;/p&gt;</description>
    </item>
    <item>
      <title>少ないデータで高精度な文書分類を実現する戦略</title>
      <link>https://www.subcul-science.com/post/20250620limited-data-classification/</link>
      <pubDate>Fri, 20 Jun 2025 00:00:00 +0000</pubDate>
      <guid>https://www.subcul-science.com/post/20250620limited-data-classification/</guid>
      <description>&lt;h2 id=&#34;問題なぜ実際のプロジェクトでは十分なデータが集まらないのか&#34;&gt;問題：なぜ実際のプロジェクトでは十分なデータが集まらないのか&lt;/h2&gt;&#xA;&lt;p&gt;「ニュース記事を『政治・経済・スポーツ・エンタメ』に自動分類したい。でも各カテゴリ30件ずつしかラベル付きデータがない&amp;hellip;」&lt;/p&gt;&#xA;&lt;p&gt;機械学習の教科書では数万件のデータセットが当たり前ですが、実際のビジネス現場では全く異なります。&lt;/p&gt;</description>
    </item>
    <item>
      <title>日本語自然言語処理で直面する現実的な課題と解決策</title>
      <link>https://www.subcul-science.com/post/20250620japanese-nlp-challenges/</link>
      <pubDate>Fri, 20 Jun 2025 00:00:00 +0000</pubDate>
      <guid>https://www.subcul-science.com/post/20250620japanese-nlp-challenges/</guid>
      <description>&lt;h2 id=&#34;問題なぜ日本語のテキスト処理は難しいのか&#34;&gt;問題：なぜ日本語のテキスト処理は難しいのか&lt;/h2&gt;&#xA;&lt;p&gt;「英語のNLPライブラリを日本語に適用したら、全然うまくいかない&amp;hellip;」&lt;/p&gt;&#xA;&lt;p&gt;日本語の自然言語処理は、英語中心に設計されたツールでは対応できない独特な課題が多数存在します。&lt;/p&gt;</description>
    </item>
    <item>
      <title>機械学習実験の混乱を解決する：再現できない結果との戦い</title>
      <link>https://www.subcul-science.com/post/20250620ml-experiment-chaos-solution/</link>
      <pubDate>Fri, 20 Jun 2025 00:00:00 +0000</pubDate>
      <guid>https://www.subcul-science.com/post/20250620ml-experiment-chaos-solution/</guid>
      <description>&lt;h2 id=&#34;問題なぜ機械学習の実験結果が再現できないのか&#34;&gt;問題：なぜ機械学習の実験結果が再現できないのか&lt;/h2&gt;&#xA;&lt;p&gt;「先週良い結果が出たモデルがあったんだけど、どのパラメータを使ったか覚えてる？」&lt;/p&gt;&#xA;&lt;p&gt;機械学習プロジェクトでこんな会話を聞いたことはありませんか？多くのチームが直面する典型的な問題です。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
