概要
tesseractで切符の画像が読めないか試してみた。
tesseractとは
いわゆるOCRのライブラリで、画像から文字を読解するライブラリ。
https://github.com/UB-Mannheim/tesseract
インストール
aptからインストールできる。日本語の場合はtesseract-ocr-jpn
も必要。
sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn
テスト
試しにwikipediaのtesseractのページをスクショして試してみた。そのままだと文字が小さくて読めないので200%まで拡大した。
tesseract source.png result -l jpn
コマンドを実行すると、下記のような内容のテキストファイルが出力される。
W Tesserat (ウフトウェ X て @ Es Weserhe- 皿 feseract ocRをW X | OO Home・tesseract- XX | OO tesseract-ocrtess- X | pythonでocR-or X | 十 C の⑦ 條https://jawikipedia.org/wiki/Tesseract_(ソフトウェア) 0%。 …ウ次と人語倍@O導 会エンコト UILUITロD.COITT /tesseract-ocr四 デテンプレートを表示 Tesseract (テッセラクト) は光学文字認識の エンジン。名称のTesseractとは四次元超立方体 の意である。 多様なオペレーティングシステム上で動作する オープンソースソフトウェアであり、Apache License 2.0 の下で配布されている。 文字認識 を行うラライブラリと、それを用いたコマンドラ インインターフェイスを持つ。 バージョン4.0 からは、従来の認識エンジンに加え、LSTM ベースのニューラルネッ トワークによる認識工 ンジンが搭載されている。
細かい文字は無理だが、拡大してある本文部分はおおむね読めている。
tesseractで改札
写真
大昔に乗った北斗星の切符の画像を読ませてみた。大小サイズもさまざまで、数字(しかも全角半角)、感じ、ひらがな、記号が混ざっており、かなり難しそうではある。
結果
来車基・習党韻・日岩介着 ネネネネ 生まあほ壮粒 5 Y(才内 うき札 幌(順 4H (19:03皆) (人 1た 3 付ま』 Ta \ン4.UD5U 肉間: 7 寺下都市内各伸下車削進押多 狂視党 国 前 26.-の.-幅都貞回 | (オータ) 8昌に上
上野は読めなかったが、札幌は読むことができた。しかしそれ以外は全部支離滅裂なことになっている。*はネに置換されてしまった。
ちゃんとした画像
さっきの例はやや斜めを向いていたりするので、今度はちゃんとした画像を読ませてみた。
(0 の 案内 1 220 -88) 巡 5 bb間MV1 MT - 05回(人)まで利用できます。(析数人数でも利用できます。なお 指数人数の 場合は目- 行程となり 、人出赴の際に 02す183っ=4470まで 0語り者き明|」R昌お有 用できます。 、 0還車肝に改札 で(無人巴か乗車の隊は車党から)、間用日の記人をすず 受けてTFSI 0東還が 日にまたがる上 は0全を中ぎて最有有に -昼車する ご章用朋には2基き上をご利用月には証そを. 放 測光を は時#またはあとをおまめすさい 0
字も小さいからか、やはり支離滅裂なことになってしまった。とはいえ一部分まともに読める箇所もあった。ひょっとするとこちらのほうが地紋がしっかり写っているからなおさら読めなかったのかもしれない。
まとめ
tesseractでMARS券を読むのはうまくいかなかった。