国産生成AIの開発進む「豊富な日本語の学習データが強み」

国内でも生成AIの開発が加速する中、京都府を拠点に研究を行う国立研究開発法人「情報通信研究機構」=NICTでは、豊富な日本語の学習データを強みとした国産AIの開発を進めています。

京都府精華町にあるNICTデータ駆動知能システム研究センターの鳥澤健太郎フェローのチームは、生成AIの基盤となる「大規模言語モデル=LLM」をことし7月、開発に成功したと発表しました。開発にかかった期間はおよそ4か月です。

最大の特徴は、大規模な日本語の学習データです。海外での開発が先行する生成AIでは、学習データは英語が中心で良質な日本語のデータをどう確保するのかが課題となっています。

チームでは、これまで15年かけて膨大な日本語のウェブサイトの情報を収集していて「アノテーター」と呼ばれる専門スタッフおよそ50人が学習データに不要な単語を取り除けるよう調整を行うなどして、ほかにはない良質な日本語のデータを新聞100万年分にあたる量の蓄積を進めています。

完成した生成AIは要領を得ないテキストが出力されるケースもあるものの、要約や翻訳に加えて、映画の簡単なシナリオもつくれるということです。

ただ、アメリカのベンチャー企業、オープンAIが開発したChatGPTなどと比較すると日本語の読みやすさや出力できる文章の量などに課題が残っているということです。

このため、さらなる精度向上を進めようと拡大させているのが「パラメータ」。

人間の脳で言うと神経回路の数にあたるようなもので、開発当初は400億、9月には1790億などに設定して成功してきましたが、今回は3110億として新しいバージョンの開発を進めています。

先月このバージョンの学習が完了しこの日、研究チームのメンバーが集まってはじめての検証が行われました。

鳥澤フェローらが「介護にコミュニケーションロボットが必要なのはなぜ?」と質問をすると「介護を受ける人がロボットとのコミュニケーションを通して、自分の存在を確認できるからです」などという答えを出力し、これまではストレスや病気の軽減といった直接的な解答に終始していたのに比べて、人の存在というより抽象的で高度な思考をした可能性がある答えを出力していました。

鳥澤フェローは「これまでのバージョンと圧倒的な差があるかと言われるとまだきょう試した範囲では、そこまで見えてないのかなと思いますが時々光る回答があったという感じがしています。今後大規模に評価していきますので、期待できるのではないか」と話していました。

チームでは、今後より多くの質問を問いかけることで精度の検証を進めることにしていて、将来的には、民間企業に日本語の学習データを提供するなど国産の生成AI開発の後押しを進める考えです。

鳥澤フェローは「ChatGPTなどとの差は、まだまだあるが、可能性は見えている。今後、データ量を増やすとか新しい技術を投入することで、真っ正面で戦って勝てるかと言われると分からないが、少なくとも特色がある、ほかとは明らかに違うものがつくれると思う」と話していました。

国産生成AI 日本では人材不足が課題に

生成AIの開発を進めるNICTの鳥澤健太郎フェローは、日本国内の課題として人材不足をあげています。

鳥澤フェローは「率直に申し上げれば、われわれの研究所でも海外に転職する人がいる」と明かした上で、海外に比べると研究者や技術者の待遇が改善されていないことを指摘しています。

さらに鳥澤フェローは日本の研究・開発に携わる人たちが論文の執筆といった短期的な成果ばかり求められ、長期的な視点で自由に取り組める環境が整っていないとしていて「論文にならなければ研究ではないと若い頃は私も言ったことがありますが、生成AIで大成功をおさめた海外企業はそんなことは全く気にしていません。両者を比べた時に若い人は海外をとってもおかしくない。生成AIの開発は何か月もかけて大量の計算機を回すことになるため、すごくお金がかかるがうまくいく保証はない。日本の研究者で、そのようなギャンブルのようなことができる人は現状では限られると思うが、一種の発想の転換が必要になっている」と話しています。

生成AIを国内開発する重要性について

鳥澤フェローは、生成AIを国内で開発することの重要性を指摘しています。現在、海外で開発が進む生成AIは、英語による学習データが中心となっていて、日本語のデータはごくわずかとなっているということです。

このため「日本人の文化とか日本人のものの考え方は海外製のAIによってかき消されてしまう可能性があり、大きな問題だ」と指摘しています。

また、生成AIは偽情報を拡散したり、コンピューターウイルスをつくったりするなど、悪用される懸念もある中、日本国内にAIを十分理解して開発することができる体制や環境を整えることが重要だとしています。

鳥澤フェローは「生成AIや、その基盤となる大規模言語モデルはある程度のお金があると、一定の水準のものは誰でもつくれるようになりつつある。中には、悪意を持つ人も出てくるので、生成AIがどういうものなのかきちんと理解して作れる体制が国内になければ、日本を守ることができない」と話しています。

さらに、鳥澤フェローは将来的にAIが人間に匹敵する知性を持つようになると想定した場合「例えば、これまで教育は国が責任を持ってきたが、それをAIが担う時代がくるとすると、全部海外に依存することは社会としていびつなものになる。長い目で見れば、社会を混乱させる1つの原因になりかねず、そのためにも国内で開発できる体制を整えていくことが重要だ」と話しています。