「kode-AI翻訳 クラウドAPI」機械学習と評価 について担当者にインタビュー!(後編)

分野特定のニューラル機械翻訳エンジンを一から作る

高電社開発室ブログ 「kode-AI翻訳 クラウドAPI」日英評価 について担当者にインタビュー!

この記事は前回の続きの後編になります。

~ブログ前編はこちらから~

 

 

3. 評価結果~BLEU値って何?~

 

佐竹:1万件のデータを機械学習した前と後に、直接機械学習をしなかった別の1,000件のデータがどれだけ翻訳精度が向上するかということですね!
そしてこの1,000件の英語の訳質がどれほどのものかを判断する基準となるものが、最初に人力で翻訳した英文だということですね!

柴田:はい、その通りです。ところで佐竹さん、上記で出てきた「BLEU値」って何か分かりますか?

佐竹:機械的に評価した値ということですか?

柴田:トレーニングには使用していない評価用の1,000件の英文データが、最初に人力翻訳した1万件のデータにどれだけ近いのか、
その類似性を機械的に評価するものが「BLEU値」です。

人間が訳した訳文と自動翻訳結果との類似性を百分率で機械評価したスコアのことですね。

佐竹:へぇ~「BLEU値」、ばっちり覚えました!

柴田:学習前と学習後の結果をそれぞれ機械評価(BLEU値)した結果は次の通りです。
【学習前】27.80⇒【学習後】54.49

佐竹:1万件データを学習させたことにより、評価用の1,000件が倍近く向上しているのが分かりますね!

柴田:そうなんです。そして人手評価した結果はこのようになりました。
【学習前平均】54.0⇒【学習後平均】71.4
 (※評価基準:訳文の内容が理解できるかどうかを主眼にした100点満点の6段階評価)

佐竹:およそ30%向上してますね!人が評価したときも学習の効果があったことが分かります。
機械学習をさせることそのものに意味があると言えるでしょうね!今回の試みの中で、苦労したことはどんなことですか?

 

4.考察

柴田:そうですね、やはりバランスよく試験対象データを選ぶことでしょうか。
例えば1万件のデータの中にも、文章パターンは同じで中の固有名詞だけが微妙に違うデータが多いんですよ。
その中から1,000件のデータを抽出する際に内容が似通ったものばかり集まっても実験の意味がないですよね。
だから似たような日本語文章同士をまずはグルーピングしてまとめて、良いバランスで選出することが大変でしたね。

佐竹:ご自身の目で選択する作業もあったんですね、根気と時間の掛かる作業だったと思います。
今回の結果を受けて、今後何か改善する点などはありましたか。

柴田:結果訳と参照訳との類似性を表す尺度である「BLEU値」が大幅に上昇したことから、結論として学習の効果が非常に高かったといえると思います。
人手評価においても、固有名詞の誤訳を除き、おおむね内容を理解できるという評価が得られました。
固有名詞の誤訳に関しては、辞書機能によってカバーすることで更なる訳質向上が期待できるでしょう。
実際に後で辞書登録をしてみたところ、限りなく100%に近い訳文が再現されました!

佐竹:事前に駅名などの固有名詞は辞書登録機能を使ってあげることがポイントですね!

柴田:ほかの改善点としては、今後はより膨大なデータで実験をしてみたいですね。
実は今回の1万件という数は、機械学習をする際のデータ量としては少ないんです。
より多くのデータを用いて実験すれば、より高い学習成果が見込まれると思います!

佐竹:今回の結果からも、学習の効果が非常に高かったといえるので今後の試みも楽しみですね。
どういう場面での実運用が期待できそうですか?

柴田:多言語での駅の構内放送文や電車内での放送文、デパートの屋内放送文として使用できそうだと感じます。対訳データが蓄積されていて、固有名詞を除く部分のパターンが大体できていれば実用できますよね。なにより人手で一から翻訳する必要がないので、コストや時間の削減に役立ちます。

佐竹:今後ますます翻訳精度の向上が期待できる、ニューラルエンジンの機械学習評価について柴田さんにお話をお聞きしました!柴田さん本日はありがとうございました!

柴田:ありがとうございました。

佐竹:開発室体当たりインタビュー、次回はどんな開発をしている開発者さんに
おもしろいお話を聞けるのでしょうか♪いまから楽しみです!