朝日新聞社、新聞記事から作成した「単語ベクトル」公開

 朝日新聞社は、2017年7月よりレトリバと進めている共同研究の成果の一部を「単語(埋め込み)ベクトル」(単語ベクトル)として研究者向けに原則無償で公開する。日本語処理研究の活性化などを図ることを目的としている。

教育ICT 先生
朝日新聞単語ベクトル
朝日新聞単語ベクトル 全 3 枚 拡大写真
 朝日新聞社は、2017年7月よりレトリバと進めている共同研究の成果の一部を「単語(埋め込み)ベクトル」(単語ベクトル)として研究者向けに原則無償で公開する。日本語処理研究の活性化などを図ることを目的としている。

 単語ベクトルとは、文章中に含まれる単語が、どのような単語と一緒に使われるか、その傾向を機械学習の技術を使って学習し、その特徴を300個の数字で数値化(ベクトル化)したもの。単語の特徴を数値化することで、コンピューターで自然言語が扱いやすくなる。

 世界では、単語ベクトルを利用することで自動翻訳や要約、音声認識など自然言語処理の研究が加速しており、朝日新聞社でも、メディアラボと情報技術本部が中心となり、AIを利用した新規事業開発・業務改革を進めている。レトリバとの共同研究では、朝日新聞社から若手エンジニアを数人レトリバへ派遣し、両社でノウハウを積極的に共有している。

 今回公開された単語ベクトルは、1984年8月~2017年8月の朝日新聞の記事データ約800万件(延べ約24億単語)から獲得。米グーグルと米スタンフォード大学の研究チームが提案したそれぞれの手法で生成したものを、研究者が使いやすいフォーマットに整え、約75万語の単語ベクトルを公開した。さらに、同義語同士が似た単語ベクトルの関係にあるように調整した、別の単語ベクトルに関する論文も公開されている。

 朝日新聞社は、今回の単語ベクトル公開を契機に、日本語処理研究の活性化とほかの研究者からのフィードバックによる共同研究の加速を図ることを目指すとしている。

《外岡紘代》

【注目の記事】

この記事の写真

/

特集