技術 -

Using Google colaboratory to learn how Word2Vec works and models

Posted on Mon Jun 15 2020 | 1 min | 297 words |

**

Let’s start with Word2Vec.**

word2vec is a model that can learn the semantic vectors of words from unlabeled text are.

Dealing with word vectors allows for applications such as word similarity calculation and clustering, and BERT. And BERT, an extension of that technology, is also used in Google’s search service.

It’s hard to understand the concept.

But are you struggling to learn about word2vec? It’s hard to understand the concept because it’s not something you’re familiar with.

[Read More]

技術系技術

数理最適化の社会実装と研究について

Posted on Sat Jun 13 2020 | 2 min | 820 words |

社会実装と研究

社会データ実装は一筋縄ではいかない！？～AIによる海上保安:船舶モニタリングを行うGeoTrackNetとは～

最先端が最善ではない

最先端の手法を使えばいい結果が得られると思いがちです。

しかし、実世界の問題ではデータがきちんと整備されていることは少ない。

また取得したデータを加工したとして、そのデータにアルゴリズムを適用しても狙った結果が得られないこともある。

[Read More]

技術数理最適化

深層学習でニュースタイトルの自動生成モデルつくったった

Posted on Fri Jun 12 2020 | 2 min | 768 words |

深層学習モデルを使って、新聞記事から見出しを自動で生成するモデルが提案されている。
朝日新聞が自動要約生成APIの提供を始めました。
- 自動要約生成API: TSUNA

追記

2022時点ならT5を使ってファインチューニングを試す方が簡単な気がする。

モデル概要

朝日新聞が研究に協力して取り組んでおり、transformerを基礎にして、文字数制約を組み込んだモデルが論文で提案されています。
さすが朝日新聞というべきか、莫大な教師データを使ってモデルの学習を行っています。
また文字数制約についても、位置エンコーディングを工夫することによって、指定した文字数を生成するようになったようです。
この辺り、フリーの言語リソースが日本語に少ないことには歯がゆさを感じます。

##　ニュースタイトルの自動生成モデルの作成

[Read More]

技術文生成自然言語処理制作物深層学習機械学習 Python