
特定の分野に特化した
高精度のAI翻訳を
開発したい
多言語チャットボットの
精度を
高めたい
会話や質疑応答時の
発言を予測したい
東南アジア諸国の言語に
対応した
対訳コーパスを
探している
業種や専門分野に
特化した
用語辞書を
作りたい
1980年代から機械翻訳を開発し、
大手企業への対訳コーパス納品実績も豊富。
長年の経験とノウハウで、問題解決に貢献する
多言語コーパスをご提供します。
観光・医療・法律・金融、知財など
様々な分野の対訳コーパスを保有。
記者会見、質疑応答等の対話形式の
対訳コーパスもご用意しています。
ご提供可能な対訳コーパスは100万ペア以上!
ご利用中の翻訳支援ツールの
翻訳メモリとしてもご利用可能です。
日本語から英語に翻訳されたデータのほか、
英語から東南アジア言語や希少言語に
翻訳された対訳コーパスを保有しています。
対訳コーパスは各言語のネイティブにより
翻訳されているため、各言語に特有の
ニュアンスや常套句が反映されています。
分野、データタイプに加え、原文と訳文の
翻訳方向も含めて管理しているため、
ご希望の対訳コーパスが抽出可能です。
多言語専門用語辞書の作成も承ります。
工場や作業現場で安全に作業するための注意事項を、業種別の会話形式で取り揃えています。
農業や林業、水産業等の第1次産業から、経済や金融、IT、原子力に関する報告書まで、多くの分野に対応しています。
入国・在留資格に関する法律や医療現場での問診など、外国人が日本に入国し、生活するうえで必要なデータを多言語で用意しています。
大手通信会社の研究部門
/放送局の研究所
/AI系機械翻訳エンジン開発会社
など
機械翻訳や多言語生成AIの開発・チューニングにおいて、対訳コーパスの必要性はますます高まっています。また、翻訳者が新たな分野の翻訳に着手する場合においても、社内に蓄積された翻訳メモリーがあれば翻訳作業の効率は格段に上がるでしょう。その反面、体系的な対訳コーパスを自前で収集することは容易ではなく、外部からデータを調達し、目的とする成果物の開発や翻訳作業に注力することが効率的と言えます。
対訳コーパス選定のポイントとして、下記の6点が挙げられます。
1) 言語の組み合わせ
2) 分野
3) 質
4) 数量
5) データタイプ
6) 文脈の有無
1)の「言語の組み合わせ」は、翻訳者が翻訳する言語ペアや、機械翻訳の開発において学習させる言語ペアが日本語と英語なのか、日本語と中国語なのかを意味します。使用する翻訳支援ツールの翻訳メモリーに登録する場合も同様に、「言語の組み合わせ」は最も重要な要素と言えるでしょう。さらに、より自然な表現を求める場合には、いずれの言語が原文であるかも重要な要素と言えます。具体的な例としては、ひと口に「日本語と英語の対訳コーパス」と言っても、日本語原文を英語に翻訳した場合と、英語原文を日本語に翻訳した場合とでは、英語表現の流暢さや翻訳の背景に違いが感じられることは当然と言えます。
2)の「分野」は、観光、医療、法律、経済、科学技術等の分野を指します。精度を高めたい分野のデータを機械学習させることで、開発の加速につながります。特定の分野の機械翻訳精度を向上させるために言語モデルを構築する場合、効果が表れる目安は10万ペア程度とされています。対訳コーパスから専門用語辞書を作成する場合においても、分野が重要になることは言うまでもありません。弊社の例では、日本国内で求められる分野は、観光立国の名のもとにインバウンド対応に注力していた時代は観光分野、訪日・定住外国人向け医療を強化させるために医療分野の対訳コーパスが求められました。さらに、事業内容の発表や説明に用いられるプレゼン資料、会議やイベントでの講演とそれに続く質疑応答を記録したビジネス分野へと、数年の間にニーズは変遷しました。
3)の「質」とは、換言すれば精度のことであり、対訳コーパスが作成された方法に依存します。人の手によって翻訳されたデータであることが望ましく、機械翻訳を用いて翻訳され、人の目によるチェックや修正を経ていないものはおのずと質が下がります。また、人の手で翻訳された対訳データの場合でも、原文1文に対して訳文が2文以上に訳されていることがあり、原文と訳文が1文で対応していることが必須の場合は、質に影響を与えることになります。さらに、過度に省略して訳されている場合も、良質な対訳コーパスとは言えません。
4)の「数量」は、たとえば、社内で使用している翻訳支援ツールの翻訳メモリーや単語辞書に登録する目的であれば、特定の分野における対訳コーパスが数万ペアもあれば、翻訳者にとって十分に役に立つ量と言えるでしょう。機械翻訳エンジンを開発する場合など、特定の分野の機械学習を行う場合には、10万ペアで一定の効果があると言われています。その反面、汎用の機械翻訳エンジンを開発する場合には数千万ペアが必要になると言われています。このように、求められる対訳コーパスの量は、用途に応じて大きく異なります。
5)の「データタイプ」は、対訳コーパスを作成する元となったファイルが、報告書・白書、発表・会見・質疑応答等のいずれかを表します。書き言葉を機械学習させたいは報告書・白書を、話し言葉を機械学習させたい場合は発表・会見・質疑応答から作成された対訳コーパスを使用することがより効果的です。弊社の対訳コーパスでは属性を細かく管理しているため、データタイプ別に対訳コーパスを抽出することが可能です。
6)の「文脈の有無」とは、複数の文章間で意味上のつながりがあるかどうかを意味します。具体的には、辞書に掲載されている例文は、特定の見出し語を含んでいることだけが条件であり、他の例文との間には脈絡がありません。そのため、「文脈がない」と判断します。それに対し、報告書はある事象や出来事に関する記述が複数の文章で構成されているため、「文脈がある」ことになります。同様に、会見や質疑応答についても、複数の話し手が交互に会話するため、「文脈がある」と言えます。機械翻訳に限らず、チャットボットでより精度の高い回答を生成するために、機械学習させる対訳コーパスに「文脈がある」ことが以前に増して求められるようになりました。
まとめ
対訳コーパスを選定する際には、用途に応じて上記1)から6)までを考慮する必要があります。特に、特定の分野に対して機械学習を行う場合は、質やデータタイプ、文脈の有無の必要性を考慮することが肝要です。目的に合った対訳コーパスを活用するために、まずは弊社の無料サンプルデータをご確認ください。