tesseract ocr训练样本识别验证码的问题

这个问题已经折磨我两天了,希望有人能指点一下。
我想简单的识别一下验证码,因为验证码整体比较简单就没考虑使用TensorFlow cnn训练。
因为本身不是做这个方向,主要想赶快突破验证码识别进行下一步实验。
验证码主要长这个样子
图片描述

我主要使用了google的tesseract ocr,代码里简单的做了一下灰度处理,然后用了默认的eng库,识别效果不是很好。主要体现在:
1、这个验证码是四位的,经常被识别成五位或者更多;
2、浅色的字符有时候会被直接忽略,可能也跟我灰度处理做的比较简单有关系;
3、有些字符识别不清,比如9经常识别成O,V经常识别成Y,这个可以用一个字典来维护勘误,倒也问题不大。
整体的识别率我感觉可能有一半多点。
经过我自学了半天之后发现tesseract也是可以训练的,所以果断下载了jTessBoxEditor进行训练,但是这个软件真的非常不友好,第一次花了一个多小时勘误结果后续处理出现字符编码问题,第二次重来甚至根本识别都识别不出来
图片描述

我也1是醉了,如果忽略,在后续处理会直接报错page59

APPLY_BOXES:

Boxes read from boxfile: 4

Found 4 good blobs.

Generated training data for 1 words

Page 58

FAIL!

APPLY_BOXES: boxfile line 3/G ((80,0),(80,0)): FAILURE! Couldn't find a matching blob

APPLY_BOXES:

Boxes read from boxfile: 5

Boxes failed resegmentation: 1

Found 4 good blobs.

Generated training data for 1 words

Page 59

Error during processing.

真的不知道该怎么办了,有没有有经验的人给我点建议,本身不是做这个的,不想花太多时间在处理数字图像上,难道我真的要搞一个tf做cnn训练么。。。
多谢!!!!!!!!!!!

回答:

你好 我想问一下您最后是怎么处理的

以上是 tesseract ocr训练样本识别验证码的问题 的全部内容, 来源链接: utcz.com/a/159825.html

回到顶部