海外在住研究者のつぶやき

専門外のことについて勉強した内容をまとめます.

AI時代の言語格差:「二流」知能を掴まされる日本人

英語の役割

従来、英語はグローバルな文脈におけるコミュニケーションの手段であった。そのため、自然言語処理技術の発展に伴う機械翻訳の性能向上で、リンガ・フランカとしての英語を学習する必要性が減るとの期待があった。

twitterの機械翻訳がこれだけうまく動いているのを見ていると、我々が英語(外国語)を真面目に勉強した最後の世代になる気がする。あと10年もすれば機械の方が自分よりずっとよくなる自信がある。(Ryoichi Imaizumi - Twitter)

英語教育自体が不要だという意見もあった程にだ。

素朴な疑問なんだけど、学校の英語教育っていらなくないですか?もう機械翻訳の方がほぼすべての日本人の英語より高性能。機械同時通訳もデバイスとUI/UXだけが壁で時間の問題。何千時間もかけて使いもんにならない自力英語を学ぶより、英語を機械に委ねるスキルとか日本語力の方が大事 (成田 悠輔 - Twitter)

ところが、ChatGPTなどに代表される自然言語処理技術の飛躍により、英語はAIとのコミュニケーション手段にもなった。

例えば、AIにより英語が今後はプログラミング言語としての役割をも担うと予測する専門家も多い。現時点でも、英語でAI自動補完を用いることで、コーディングの効率が二倍になるとの報告もある[1]。

The hottest new programming language is English (Andrej Karpathy (Researcher at OpenAI) - Twitter)

もちろん、コーディングは単なる一例である。AI活用が情報収集を含めビジネスのあらゆる側面の生産性に大きな影響を及ぼすことは、容易に予想できるであろう。

そして、皮肉なことに、英語ができないとそのAIとのコミュニケーションに不都合が生じることになったのである。

言語がアクセス可能な知能レベルを規定する

英語とその他の言語では自然言語処理の性能に大きな差があることが知られている。

四択テストにおける言語ごとのGPT-4の性能比較を下記図の左に示す。四択という生成能力を試さない言語モデルには比較的簡単なタスクにも関わらず、英語と比較し日本語での性能は6%ポイントほど低い[2]。 他報告[3](右図)においても、英語と比較し日本語での性能は一貫して低い。

(左)四択テストにおける言語ごとのGPT-4の性能比較[2]。(右)言語ごとのGPT-3.5の性能比較[3]。英語と比較し日本語での性能は一貫して低いことがわかる。

また、研究開発が英語に集中しているという報告[4]、大規模言語モデルは言語間格差を是正しないという報告[5]もあり、この格差は今後も広がる可能性すらある。

結論

機械とのコミュニケーションのたびに翻訳を介すのは現実的ではなく、また翻訳が完璧でない以上、英語話者と比べ日本語話者は「二流」の知能を用いて日々暮らすことになる。

AIの発達が言語間格差を是正するどころか、アクセスできる知能の程度を規定する状況になった。我々一般人にできることは精々英語をしっかり勉強することくらいのものである。

参考文献

  1. Research: quantifying GitHub Copilot’s impact on developer productivity and happiness
  2. GPT-4 Technical Report
  3. Don’t Trust GPT When Your Question Is Not In English
  4. Systematic Inequalities in Language Technology Performance across the World's Languages
  5. MARI Grand Seminar - Large Language Models and Low Resource Languages