AIで“くずし字”の解読に挑む

AIで“くずし字”の解読に挑む
日本で古くから使われてきた手書きの文字「くずし字」を、AI=人工知能を使って瞬時に今の文字に置き換えるシステムの開発を競う国際コンペが行われ、およそ300チームがより精度の高い解読に挑みました。
「くずし字」は平安時代から明治時代の初めごろまで広く使われていましたが、今の文字と形が大きく異なっていたり複数の文字が連続して書かれたりしていることから、正確に解読できる人には限りがあります。
このため「人文学オープンデータ共同利用センター」などは、AIを使ってくずし字を瞬時に今の文字に置き換えるシステムを開発し、そのうえで新たな発想を加えてさらに精度を高めようと国際コンペを行いました。

コンペでは、センターのシステムをもとに新たな手法を開発することで、数千枚の画像に書かれたくずし字をどれだけ正確に認識できるかが競われ、国内外の企業や研究者などおよそ300チームが参加しました。
11日、東京都内で上位の10チームが表彰され、優勝した中国のチームは、95%の割合でくずし字を正しく解読できたということです。
大会を主催した人文学オープンデータ共同利用センターの北本朝展センター長は「これまでくずし字に関心がなかった人も含めて、世界中の人からいろんなアイデアを集めることができた。出された意見を共有することで、研究がさらに進むことが期待できる」と話していました。

数億点規模も解読進まず

人文学オープンデータ共同利用センターによりますと、国内には現在もくずし字で書かれた過去の資料が数億点規模で残されていると言われていますが、人が読める量には限りがあり、解読されていない資料が数多く残されていることが課題となっています。
書かれた内容が読めずに価値が分からず廃棄されたり、これまで知られていない地域の歴史や災害の記録などが解読されないまま残されていたりするケースが見られるということです。

北本朝展センター長は「これまで知られていなかった災害や復興の記録を読んでいくことで、貴重な情報が得られることもある。くずし字を読める人が限られる中で、AIは人の手助けをしてくれるはずだ」と指摘しています。

意味ではなく画像として認識

人文学オープンデータ共同利用センターが開発した解読システムは、古文書のどこにどのような文字があるのかを、AIが画像として認識します。

認識した文字の形の特徴を、あらかじめ学習したおよそ100万字分のくずし字のデータと照らし合わせることで、今の文字に置き換えていきます。

文字は順番に解読するのではなく、ことばの意味や前後のつながりを考慮せずに形の特徴だけで判別するということです。
センターによりますと、人の手では最低でも10分ほどかかる1ページのくずし字を、数秒で解読できるということです。

一方、今の段階では、AIがすべての文字を正しく解読できるわけではなく、文字を読む順番についても判断できないため、文章の意味を正確に理解するには専門家による確認作業が必要となります。

今回の国際コンペでは、このシステムをもとにおよそ300チームが精度の向上に挑み、上位のチームの手法はウェブ上に公開されています。

コンペの入賞者は

コンペでは海外のチームが上位を占める中、1人で開発にあたった福岡県の土井賢治さんが3位に入賞しました。

土井さんはIT企業のエンジニアで、ネットオークションに出品された商品が本物か偽物かを投稿された画像から判断するシステムの構築に携わっています。

また、趣味でもSNSに投稿されたラーメンの画像がどこの店舗で出されたものかを数万枚の画像データをもとに予測するシステムを運営していて、日々の仕事や趣味で培った手法を応用してくずし字の特徴を見極める精度を上げていったということです。

土井さんが開発したシステムは、全体の94%余りの文字を解読することに成功しました。

土井さんは「くずし字は存在を知っている程度でしたが、機械で読めることの意義はすごく感じました。読まれていない文書がたくさんある中で解読がもっと進んでいけば、災害の歴史を知ることにも役立つと思いますし、社会的な意義も大きいと感じました」と話していました。