tesseract ocr训练样本识别验证码的问题

Z时代
2024-01-10
分类：技术分享

这个问题已经折磨我两天了，希望有人能指点一下。
我想简单的识别一下验证码，因为验证码整体比较简单就没考虑使用TensorFlow cnn训练。
因为本身不是做这个方向，主要想赶快突破验证码识别进行下一步实验。
验证码主要长这个样子
图片描述

我主要使用了google的tesseract ocr，代码里简单的做了一下灰度处理，然后用了默认的eng库，识别效果不是很好。主要体现在：
1、这个验证码是四位的，经常被识别成五位或者更多；
2、浅色的字符有时候会被直接忽略，可能也跟我灰度处理做的比较简单有关系；
3、有些字符识别不清，比如9经常识别成O，V经常识别成Y，这个可以用一个字典来维护勘误，倒也问题不大。
整体的识别率我感觉可能有一半多点。
经过我自学了半天之后发现tesseract也是可以训练的，所以果断下载了jTessBoxEditor进行训练，但是这个软件真的非常不友好，第一次花了一个多小时勘误结果后续处理出现字符编码问题，第二次重来甚至根本识别都识别不出来
图片描述

我也1是醉了，如果忽略，在后续处理会直接报错page59

APPLY_BOXES: Boxes read from boxfile: 4 Found 4 good blobs. Generated training data for 1 words Page 58 FAIL! APPLY_BOXES: boxfile line 3/G ((80,0),(80,0)): FAILURE! Couldn't find a matching blob APPLY_BOXES: Boxes read from boxfile: 5 Boxes failed resegmentation: 1 Found 4 good blobs. Generated training data for 1 words Page 59

Error during processing.

真的不知道该怎么办了，有没有有经验的人给我点建议，本身不是做这个的，不想花太多时间在处理数字图像上，难道我真的要搞一个tf做cnn训练么。。。
多谢！！！！！！！！！！！

回答：

你好我想问一下您最后是怎么处理的

以上是 tesseract ocr训练样本识别验证码的问题的全部内容，来源链接： utcz.com/a/159825.html

tesseract ocr训练样本识别验证码的问题

回答：

其他人也看了：