日本語自然言語処理の研究は必要なのか
「最近は言語モデル、というものがあってね、そういう意味処理の問題も全部、解けるようになってるから、知らないなら勉強したほうがいい」とか言い放つエライ先生に、「もう一度、学校に入り直せ」と告げる代わりにどう丸く振る舞うか、というような訓連。
— 戸次大介/Daisuke Bekki (@kaleidotheater) September 24, 2021
(文脈無視を承知の上で)GPT3をいじった感想としては、「最近の言語モデル、というものはね、そういう意味処理の問題も相当、(適切なプロンプトを与えるだけで)解けるようになっている」なら間違いとは言い切れない気がしている *1。
例えば、含意関係認識の問題も適切なプロンプトを使えばGPT3で解けるようになってきている。
翻訳を介せば日本語も
日本語の含意関係認識も、一旦DeepLで英語にしてやったあとにGPT3で解けば、まあ解ける。しかも、ご丁寧に「説明」付きである。
問題
T: 川端康成は「雪国」などの作品でノーベル文学賞を受賞した.
H: 川端康成は「雪国」の作者である.
含意関係認識の結果
性能向上のための日本語自然言語処理の研究は必要か?
どれだけ大規模言語モデルの影響範囲が拡大しようと、言語モデル自体の研究は残るので、英語自然言語処理の研究は残るだろう。 意味処理の研究も言語モデルを活用したものに変わっていくだけで残るだろう。 例えば、直感的にも「適切なプロンプト生成の研究(aka プロンプト工学)」などはしばらく残りそうである。
でも日本語は…? 英語の手法を参考に日本語「独自」の手法を開発するより、日本語を英語に翻訳して直接英語で問題を問いたあと日本語に再翻訳をかけるほうが、性能が高くなる時代が来る気がしませんか*2? 当然タスクに依ると思いますが*3。
追記
あくまで工学的な「性能向上のための」です。文化・倫理・言語・社会学的な視点での日本語自然言語処理研究は必要だと思います。
*1:当然、「全部」の問題が解けるわけではない。例えば、Floridi et al. 2020 はGPT3は(人間なら容易に類推可能な)計算問題すら間違えることを指摘している
*2:日本語で英語以上に大規模な言語モデルが構築できるのであれば、日本語「独自」の技術にも意義はありそうですが、なかなか難しそうなので…
*3:例えば機械翻訳関連技術の研究などは残るだろう