A-A+

如何在Centos下识别图片中的文字并存储到txt中

2013年01月31日 CentOS 评论 1 条 阅读 2,607 次
如果您有代购或者代维服务器、PHP网站建设、程序代码修改、系统开发等需求,可以联系我购买付费服务。QQ 379880222

本教程将介绍如何在CentOS上使用TESSERACT将图像转换为文本。
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

我们在centos下使用TESSERACT来识别图片文字。因为没有CentOS下TESSERACT的3.xx最新的RPM包(注意3.0版本之后才支持中文的识别。你可以手动编译安装TESSERACT最新版本)所以我们只能用TESSERACT2.04的RPM包来进行说明。

TESSERACT2.04只能读取文本的格式为tif和bmp的文件。所以我们还需要另外一个工具ImageMagick,这款软件想必大家都应该熟悉。ImageMagick的可以转换几乎所有的图像格式。

下面进入正题:

1.首先安装TESSERACT和ImageMagick

2.让我们来测试一下安装是否成功

①现在一张你想要装换为文字的图片,例如

②使用Imagemagick将图片转换为TESSERACT可以识别的格式

③使用TESSERACT将图片中的文字输出

④检查下结果是否正确

如果看到centos字样,那说明你已经装换成功了(成功率不一定是百分之百,请大家酌情处理)。如果需要自动脚本,请查看Centos下将远程图片识别为文字的脚本

1 条留言  访客:0 条  博主:0 条   引用: 1 条

来自外部的引用: 1 条

  • Centos下将远程图片识别为文字的脚本 | 恋香缘

给我留言