Google翻訳のディープラーニングの成果、ニューラル翻訳を試してみた

neuron-0001

グーグル翻訳にニューラル機械翻訳(GNMT/Google Neural Machine Translation)が導入されたと聞いたので試してみました。

最初は文学作品の翻訳を考えたけど、その辺はやっている人がいたので、対訳が載っていて、かつ平易なもの、ということで『アメリカの小学生が学ぶ歴史教科書 単行本』を翻訳にかけてみました。

翻訳結果

The Internment of Japanese-Americans

Large numbers of Japanese-Americans lived on America’s West Coast.After the attack on Pearl Harbor, Americans were enraged at the Japanese, and many unfairly turned their anger on Japanese-Americans as well. People said that Japanese-Americans could not be trusted, and accused them of being more loyal to Japan than to the United State. Government officials even claimed that Japanese-Americans were Spying for Japan.

The “extraordinary order” signed by President Roosevelt did not specifically order the removal of Japanese-Americans, but it did result in their mass internment. The order said that, to protect “against espionage and against sabotage,” military commanders could take people considered dangerous and, without any sort of trial, put them in detention(holding) camps.

日系アメリカ人の収容所

多数の日系アメリカ人がアメリカの西海岸に住んでいました。パールハーバーへの攻撃後、アメリカ人は日本人に怒りを覚え、多くは不公平に日系アメリカ人に怒りを抱かせました。 人々は、日系アメリカ人は信頼できず、米国よりも日本にもっと忠実であると非難しました。 政府当局者は、日系アメリカ人は日本を狙っていると主張していた。

ルーズベルト大統領が署名した「異常な秩序」は、特に日系人の撤去を命令していないが、大量拘禁に終わった。 軍の指揮官は、「スパイ行為と破壊行為」を守るために、人々を危険なものとみなし、いかなる裁判もせずに、収容所(収容所)に入れると述べた。

アメリカの小学生が学ぶ歴史教科書
村田 薫 (著), James M. Vardaman Jr. (著)

2005/1,p210

すごいと思ったのが、「detention(holding)」がどちらも収容所になっていること。同じ意味のものは続けて出現しても同じ語に変換されるってすごいなあと。

ちょっとおもしろい現象

面白いのがJapanese-Americanの「J」をタイポ(打ち間違い)で小文字にてしまった場合。

Japanese-American

ルーズベルト大統領が署名した「異常な秩序」は、特に日系人の撤去を命令していないが、大量拘禁に終わった。

japanese-American

ルーズベルト大統領が署名した「異常な秩序」は、特に日本人の撤去を命じたわけではありませんが、大衆拘禁の結果となりました。

たった一文字のタイポで「ですます調」と「だ・である調」が変わってしまっています。

全く同じ内容で単語のつづり自体は間違っていないのに、下は日本人となってしまっている。学習結果として、文全体で経験的に判別しているのが分かります。

おまけでJapanese-americanの場合

ルーズベルト大統領が署名した「異常な秩序」は、特に日系アメリカ人の撤去を命じたわけではないが、大量の抑留をもたらした。

こちらだと日系アメリカ人となります。何にせよタイポ一つでガラッと変わってしまうのは面白いですね。

同じ語でもセンテンスによって範囲が変わる

文中にはJapanese-Americansが3回出てきます。最初の2個は日系アメリカ人なのに、3番目の同じフレーズは日系人になっています。

これを見て「ひょっとして既出の単語は文脈から略すまでに進化してるのか?」と、上2つのJapaneseをIrishに変更して「Irish-American」で試したところ、3番めは変わらず日系人のまま。

President Rooseveltが冒頭にあることから文章はアメリカのことという前提が分かるため、「アメリカ人」が省かれて日系人になったのかな。

一文ごとの変換精度の高さはかなりのものですね。

ニューラルネットワークってなんぞや

ニューラルネットワークとは脳のニューロンネットワークをモデルにした学習法、といっても分かりにくいですよね。

参照:村上研究室(愛媛大工学部)

簡単に表現するなら事柄と事柄を一対一で対応させるのではなく、学習によってその2つの間にある結びつきの強弱で関係性を構築するものです。2つだけの対応関係なら単純ですが、複数の事柄対複数の事柄の関係性を形成していくのがニューラルネットワークです。

膨大なデータから学習した結果としてネットワークが形成されるため、入力したものと出力されたものの対応関係がわからないことが多いわけです。処理過程はいわばブラックボックスとなっています。

そんなわけで、一部がおかしかったからといってそこだけの出力結果を修正する、ということはできないのが特徴です。

ディープラーニングの結実

はやりのディープラーニング(深層学習)はこのニューラルネットワークを利用しています。

ディープラーニングは最近話題になることが多く、今年3月にはさくらインターネットが人工知能研究の株式会社UEIと提携してWebから使えるディープラーニングクラウドASP事業を開始しています。

UEIとさくらインターネットが業務提携し、 ディープラーニングクラウドASP事業を開始 | ニュース | 株式会社UEI
報道関係者各位 プレスリリース 2016年3月17日 株式会社UEI UEIとさくらインターネットが業務提携し、 ディープラーニングクラウドASP事業を開始  株式会社UEI(本社:東京都文京区、代表取締役社長 兼 CE...

また、DeNAは機械学習・深層学習を研究開発しているPFNと合弁会社「PFDeNA」を設立しています。ゲームだけでなく、他のサービスへの適用や、外部へのソリューション提供を行っていくつもりだとか。

DeNAが「AI」で実現したいこと--PFNとディープラーニングの合弁会社を設立
ディー・エヌ・エー(DeNA)とPreferred Networks(PFN)は7月14日、人工知能の合弁会社「PFDeNA」を設立したと発表した。

この合弁会社設立に先立って、DeNAは自身がサービスするモバゲーで、ユーザの作ったチャットルームに対話するAIが訪れるという実験?をしています。

なんでもチャットという30分限定のところに訪れている「らしい」です(興味があったのでモバゲーにはちょくちょくインしているけど見たことない)。

さいごに

公式発表がないので、ホントかな?と思っていたんですが、これは導入されたと考えて良さそうですね。

中国語-英語の導入が2016年9月29日なので、二月弱で日本語-英語が導入ということになります。習得の難しい部類に入る日本語-英語間で、これほど適切に約せるようになるとは、本当に驚きです。
そりゃ、ディープラーニングが注目されるわけです。