「くずし字」AIが解読 ラーメン判別法も応用!

「くずし字」AIが解読 ラーメン判別法も応用!
平安時代から明治時代の初め頃まで、日本で広く使われていた「くずし字」。今の文字と形が大きく異なる文字があるうえ、複数の文字が連続して書かれていることも多く、研究者などが一文字ずつ丹念に読み解いていく必要があります。

今、この「職人技」にAIが参入しようとしています。読むのではなく画像認識によって、くずし字を瞬時に現代の文字に置き換えていくというのです。ことしの秋にはシステムの開発を競う国際コンペが開催され、およそ300チームが精度の高さを競いました。

(科学文化部・富田良)

「くずし字」解読は「文系」より「理系」向き!?

くずし字の解読は、文学や歴史学など「文系」の専門家の領域ですが、AIの開発は、日頃プログラミングやシステムの開発に携わる「理系」の研究者が得意とするところです。
そのうちの1人、国際コンペに参加した福岡県の土井賢治さんを訪ねました。土井さんはIT企業のエンジニアで、ネットオークションに出品された商品が本物か偽物かを、投稿された画像から判断するシステムの構築に携わっています。

くずし字は「存在を知っている程度」だったということで、みずから読むことはできません。そんな土井さんが今回のコンペに参加した理由を聞いてみると、意外なきっかけがあったことが分かりました。

「ラーメンの画像から店を当てるシステム」を応用できると考えたというのです。

驚き! ラーメン判別の技を応用

土井さんは、SNSに投稿されたラーメンの画像がどこの店舗で出されたのかを、数万枚の画像データをもとにAIが予測するシステムを運営していて、ファンの間で人気となっています。

AIは、一見同じようなチェーン店のラーメンの画像の中の、盛り付けやスープの色、さらにはテーブルの材質といった限られた情報からそれぞれの特徴を捉え、店舗名を正確に予測します。

土井さんは、これと同じ要領でくずし字も見分けることができると考え、3か月にわたりAIを学習させました。その結果、コンペでは、出題されたくずし字の94%余りを解読することに成功し、日本人で最も上の3位になりました。
(土井賢治さん)
「くずし字を機械で読めることの意義をすごく感じました。読まれていない文書がたくさんある中で解読がもっと進んでいけば、社会的な意義も大きいと感じました」

AIの解読能力 高めるポイントは?

この国際コンペ、「人文学オープンデータ共同利用センター」などが今回初めて開催しました。

センターは自分たちの手で、AIを使ってくずし字を瞬時に今の文字に置き換える新しいシステムを開発しましたが、新たな発想を加えることで、その精度をさらに高めるのがねらいです。

そのシステムは、文系の私は当初ほとんど理解できないものでしたが、担当者に何度も話を聞くうちに、次の2点が特徴だということに気がつきました。
(1)「解読」ではなく「画像認識」

まず、古文書のどこにどのような文字があるのかを、AIが画像として認識します。

そして、認識した文字の形の特徴を、あらかじめ学習したおよそ100万字分のくずし字のデータと照らし合わせることで、今の文字に置き換えていきます。

(2)最初から順番に読まない

これまでは、文字を最初から順番に読み解くやり方が一般的でしたが、文字の切れ目を判断できずに途中で解読が止まってしまうケースがありました。

そこで新たなシステムでは、文字を順番に解読するのではなく、また言葉の意味や前後のつながりを考慮せずに、形の特徴だけで判別していきます。

センターによりますと、人の手では最低でも10分ほどかかる1ページのくずし字を、わずか数秒で解読できるということです。

数億点もある難読資料 高まるAIへの期待

11月11日、センターなどは、「AIがくずし字を読む時代がやってきた」と題したシンポジウムを開催しました。

国際コンペの授賞式が行われたほか、さまざまなアプローチでくずし字解読に挑む専門家たちが壇上に立ち、デジタル技術を使ったデータ収集や市民によるくずし字解読プロジェクトの成果などを紹介しました。

会場で感じたのは、AIの活用でくずし字の解読が進むことへの期待でした。講演した専門家の1人は「AIがくずし字を読むのではなく、くずし字を読もうとする市民を助ける、自転車の補助輪のような役割を果たしてくれるはずだ」と話していました。
その背景には、くずし字の解読がなかなか進まない現状があります。

くずし字は時代や書き手によって、同じ文字でも形の違うものが数多く存在したり、複数の文字が連続して書かれたりするため、読解には「職人技」が必要です。

センターによりますと、くずし字を正確に読むことができるのは全国で数千人程度と推定されています。これに対して、くずし字で書かれた歴史資料は数億点規模で残されているとされ、内容が読めずに価値が分からず廃棄されたり、これまで知られていない地域の歴史や災害の記録などが解読されないまま残されていたりしているのが現状です。
(人文学オープンデータ共同利用センター 北本朝展センター長)
「これまで知られていなかった災害や復興の記録の中に、貴重な情報がまだたくさんあるはずだが、読んでみなければ分からない。AIがそうした情報を見つけ出す手助けになり、こうした分野に関心を持つ人が増えるきっかけになると期待している」

歴史資料の研究者からも期待の声

くずし字を読み解く現場の研究者からも、AIを活用することで歴史資料の解読が進むことへの期待が寄せられています。

東北大学の佐藤大介准教授。歴史資料の修復や保全に取り組むNPOの事務局長として、台風19号で被害を受けた古文書の救出活動にもあたっています。

佐藤さんが強調するのは、古文書には現代にも生かせるヒントが多く詰まっているという点。例えば災害の記述は、防災や減災に生かすことができます。

そのためには、古文書を読み解くスピードを上げていかなければなりません。
佐藤准教授は、AIの活用が広まっても専門家による検証や確認が不可欠だとしたうえで、「AIを活用することで、過去の情報を皆で共有していくための基礎的な環境を作ることを進めることができればいい」と話していました。

AIの活用がさらに進むことで、古い歴史資料に埋もれた知られざる情報を、私たちも発見できるかもしれない。そんな未来が、着実に近づいています。
科学文化部 記者
富田良
平成25年入局。金沢局を経て平成28年から長崎局で勤務し、原爆を中心に戦争関連の課題や文化財をめぐる問題点などを取材。令和元年夏から科学文化部で文芸や学術などを担当