2024-12-10

国会図書館のOCRアプリ

国会図書館が2024年11月26日に「NDL古典籍OCR-Liteの公開について」を発表しました。Microsoft WindowsなどのPC上で古文書などの画像を解析し、崩し字を読み取ってくれます。画像中のどのあたりに崩し字があるのかは自動判別なので、認識対象とならない場合があります。さらに認識されたとしても、必ず正しい判断をするとも限りません。


いろいろと問題が無い訳ではありませんが、古文書を読み取る効率が上がるでしょう。これまでは、崩し字辞典のような参考書を駆使して、経験を積み、古文書を読み取っていました。それに対して、これを使えば、認識結果をもとにして、誤認識された箇所を修正していけばよいので、だいぶ楽になるはずです。

 

読もうとする古文書が有名ならば、このようなツールが無くても、既に史料集などに翻刻が掲載されている可能性があります。しかしマイナーな古文書を相手にする場合であれば、このようなツールが役立ちます。

 

便利な時代になったものだと思います。もし可能ならば、自分のマシンにインストールしなくても、画像をアップロードすれば処理してくれるようなWebサイトが登場すると、よりありがたいところです。

0 件のコメント:

コメントを投稿