青ポスの部屋

旅と技術とポエムのブログ

tesseractでOCR改札

概要

tesseractで切符の画像が読めないか試してみた。

tesseractとは

いわゆるOCRのライブラリで、画像から文字を読解するライブラリ。

https://github.com/UB-Mannheim/tesseract

インストール

aptからインストールできる。日本語の場合はtesseract-ocr-jpnも必要。

sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn

テスト

試しにwikipediaのtesseractのページをスクショして試してみた。そのままだと文字が小さくて読めないので200%まで拡大した。

f:id:bluepost69:20200126192923p:plain

tesseract source.png result -l jpn

コマンドを実行すると、下記のような内容のテキストファイルが出力される。

W Tesserat (ウフトウェ X

て

@ Es Weserhe-

 

 

皿 feseract ocRをW X | OO Home・tesseract- XX | OO tesseract-ocrtess- X | pythonでocR-or X | 十

C の⑦ 條https://jawikipedia.org/wiki/Tesseract_(ソフトウェア)

0%。 …ウ次と人語倍@O導
会エンコト       UILUITロD.COITT

/tesseract-ocr四
デテンプレートを表示

Tesseract (テッセラクト) は光学文字認識の
エンジン。名称のTesseractとは四次元超立方体
の意である。

多様なオペレーティングシステム上で動作する
オープンソースソフトウェアであり、Apache
License 2.0 の下で配布されている。 文字認識
を行うラライブラリと、それを用いたコマンドラ
インインターフェイスを持つ。 バージョン4.0
からは、従来の認識エンジンに加え、LSTM
ベースのニューラルネッ トワークによる認識工
ンジンが搭載されている。

細かい文字は無理だが、拡大してある本文部分はおおむね読めている。

tesseractで改札

写真

大昔に乗った北斗星の切符の画像を読ませてみた。大小サイズもさまざまで、数字(しかも全角半角)、感じ、ひらがな、記号が混ざっており、かなり難しそうではある。

f:id:bluepost69:20200126193000j:plain

結果

来車基・習党韻・日岩介着 ネネネネ
生まあほ壮粒

5  Y(才内 うき札 幌(順

4H (19:03皆)  (人 1た      3
付ま』                     Ta
\ン4.UD5U 肉間: 7

寺下都市内各伸下車削進押多   狂視党  国

前

26.-の.-幅都貞回 |          (オータ)         8昌に上

 

上野は読めなかったが、札幌は読むことができた。しかしそれ以外は全部支離滅裂なことになっている。*はネに置換されてしまった。

ちゃんとした画像

さっきの例はやや斜めを向いていたりするので、今度はちゃんとした画像を読ませてみた。

f:id:bluepost69:20200126193541j:plain

 

(0 の 案内 1 220 -88) 巡 5 bb間MV1 MT
- 05回(人)まで利用できます。(析数人数でも利用できます。なお 指数人数の
場合は目- 行程となり 、人出赴の際に 02す183っ=4470まで

0語り者き明|」R昌お有 用できます。

、 0還車肝に改札 で(無人巴か乗車の隊は車党から)、間用日の記人をすず

受けてTFSI 0東還が 日にまたがる上 は0全を中ぎて最有有に -昼車する

       
 
 

 

            

ご章用朋には2基き上をご利用月には証そを.
放 測光を は時#またはあとをおまめすさい 0

字も小さいからか、やはり支離滅裂なことになってしまった。とはいえ一部分まともに読める箇所もあった。ひょっとするとこちらのほうが地紋がしっかり写っているからなおさら読めなかったのかもしれない。

まとめ

tesseractでMARS券を読むのはうまくいかなかった。