A-A+

Tesseract-ocr的简介与使用教程

2013年03月20日 Linux, Windows 暂无评论 阅读 10,706 次
如果您有代购或者代维服务器、PHP网站建设、程序代码修改、系统开发等需求,可以联系我购买付费服务。QQ 379880222

Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、Linux和Mac OS 等主流平台。但作为一个引擎,它只提供命令行工具。
1.官网地址http://code.google.com/p/tesseract-ocr/
2.安装与运行(谷歌资源):http://code.google.com/p/tesseract-ocr/wiki/ReadMe
3.源码下载地址http://code.google.com/p/tesseract-ocr/downloads/list
4.可识别文件类型:”.tif”, ”.bmp” 如果要识别其他类型图片,需要借助ImageMagick来进行图片格式的转换。
5.在Windows平台下调用“tesseract.exe”测试
1)在google中下载tesseract-ocr-setup-3.01.exe和chi_sim.traineddata.gz中文字库。
2)安装完毕,将中文字库放入安装目录的tessdata中。
3)在命令行中操作,进入安装目录,在该目录中事先放入要测试的图片,比如:6.tif;
执行识别图像的命令格式为:
tesseract .exe [-l lang]
Imagename: 需要识别的图片文件名
outputname: 输出结果txt文件名,用来存放识别出来的文字结果
lang: 使用的文字字库,根据要识别的文字类型来选择。
例如:输入命令:tesseract.exe 6.tif 6 –l chi_sim
6.在VC2008平台下调用源码测试
1)将中文字库放入安装目录的tessdata中。
2)配置环境变量TESSDATA_PREFIX = “C:\Program Files\Tesseract-OCR\” 即tessdata的目录,在源码中会到这个路径下查找相应的字库文件用来识别。
3)将下载的VC2008工程文件夹放到源码文件夹目录下。打开sln工程,设置“tesseract”为启动工程。
4)打开“tesseract.cpp”文件,配置参数
lang:选择的字库文件名
image:输入图片路径
output:输出结果文件路径
7.Centos下编译安装TESSERACT3.0.x版本http://lxy.me/centos-compiler-install-tesseract3-0-x-version.html
8.如何在Centos下识别图片中的文字并存储到txt中http://lxy.me/how-the-text-in-centos-next-picture-identification-and-storage-to-txt.html
9.Centos下将远程图片识别为文字的脚本http://lxy.me/centos-remote-picture-identification-text-script.html

标签:

给我留言