你的位置:编辑出版网 >> 资讯 >> 专业工具 >> 正文 投稿

OCR:把图像中的文字取出来(绿色工具集)

2009-11-08 15:03 |  编辑出版网  | admin

一、什么是OCR

OCR(Optical Character Recognition)是文字识别技术或称光学字符识别,简单的说,就是把图片中的文字读取出来,这样就可以复制到txt等文档里编辑使用文字了。OCR技术的出现,实现了将印刷文字扫描得到的图片转化为文本文字的功能,提供了一种全新的文字输入手段,大大提高了用户工作的效率。要实现OCR有两个途径,一个通过购买硬件即扫描仪,比如你可以通过这样把手头上的图书转化到电脑的文字;另外一个方法可以使用网络上的相关ocr软件,实现电脑里图片到文字的转换,如果想把手头上的书等文字识读出来,那么还得先用数码相机先把书转化为图片传到电脑再转换为文字。OCR不是万能的,存在一定的误差,不过有时候可以达到100%的识读效果。

二、OCR适合情形

1.经常会遇到客户只给你一本厚厚的宣传册(因为客户不知道电子稿保存的重要意义,甚至压根就不知道什么是电子稿),要你明天之前,必须把那本几十页宣传册上的文字,原原本本打出来。生意还是要做,没有办法,你只能再当一回为了打字而打字的工具了,除非你使用OCR;

2.老板某天拿了一张写满字的传单给你,要求你马上打成Word文档,对于打字慢或是懒得打的你,为了完成工作任务,OCR就很适合你了;

3.工作中、网络中、现实生活中,OCR对很多人都是有用的,能帮你轻松提高效率。

三、选择OCR软件

正常购买扫描仪的时候,配套软件就会附有OCR功能,在网络上搜索,也会有一系列的OCR软件可以下载,编辑出版网特为您提供如下免费版或特别版介绍:

1.Readiris Corporate v12.0.5702 简体中文特别版 - 重量级光学识别OCR软件 http://www.xdowns.com/soft/softdown.asp?softid=54653
  简介:软件大小:150 MB。编辑出版网注:特别版即完美破解版,如果商业用途请使用付费版。一套光学识别OCR软件,可以把纸张、PDF文件、图片文件扫描成可以编辑的文字,然后用你喜欢的编辑器进行编辑!现在可以识别中文文字的图片,纸张,PDF等等文档啦,方便文字办公人员的文字输入编辑了!解压,安装,已支持所有语言文字的转换,本软件为集成PJ,直接安装即可,以方便你使用。本软件为中文,荷兰语,英文,德文,西班牙文等多种主流语言,并并可识别共128种文字语言,可以把纸张、PDF文件、图片文件扫描成可以编辑的文字,然后用你喜欢的编辑器进行编辑。 Readiris字元辨认系统是一款处理文字识别的OCR工具软件,其强大的识别能力和丰富的字库可使识别率达到98%以上。具有多稿处理功能,将多篇文件扫描后一并识别,存储为Word文档格式保留原稿版面,方便二次处理。具有自动分析、自动识别功能,操作更为简单快捷。内建的过滤系统可将文稿上的文字、图片、表格自动分类识别。更新时间:2009-8-23 9:19:43

新特性:
- 比旧版提高30%OCR的准确性
- 比以往快200倍的扫描速度
- 智能和直观的界面
- 更灵巧的PDF制作
- 更多的兼容性
- 对手写字体识别
- 条形码的识别
- 兼容JPG2000

使用方法:先将所有可扫描的文档,纸张、PDF文件、图片文件扫描,再使用软件就可以保存为TXT以及WORD等可编辑格式!

现在你可以做到把任何文件转换成可编辑的文本文件!  Readiris 12 可以把你的文件迅速转换成可编辑的文本文件或PDF格式的文件,而且可以编辑,共享和存储!


纸张文件转换成可编辑的文本文件
自动发送你得到的文件到您最喜爱的应用程序:Word , Excel ,Acrobat...

创建可编辑和可搜索的PDF文件
把所有文件到你的文件并且创建成可搜索的PDF或XPS文件。 4种菜单选择:图像比文本(最常见) ,文本图片,文本,图像。

压缩您的文件归档优化
创建彩色PDF格式与XPS文件小于原始图像的大小多达400倍,是你文件归档的理想选择!

转换超过120种不同的语言
Readiris ™ 12确认可以转换超过120种不同的语言。专门为亚洲版本,希伯来文和阿拉伯文的字符也可以转换。

什么是Readiris 12 ?
Readiris 12是一个文字识别软件的所有的乏味重复工作在很短的时间。只需扫描任何文件与您的扫描仪,连接上Readiris 12和在几秒钟内你有一个完全可编辑的文件的副本文件,你最喜欢的文字处理,电子表格应用程序或在其中一个可输出的应用。 Readiris 12工程扫描纸质文件, PDF文件和图像文件。

主要特点

*准确快速识别与转换
*轻松导出到Word , Excel ,Acrobat, ...
* SmartTasks按钮
*扩展支持的PDF和XPS
*革命性高品质压缩技术
*先进的表格识别
*多页的文件,批处理文件识别和分离
*监控文件夹

2.免费的:FreeOCR.net 2.6  http://www.xdowns.com/soft/softdown.asp?softid=39262 或直接下载:http://www2.139.xdowns.com/uploadFile/2009-1/freeocr26.rar (打开后如果显示找不到网页,请刷新一下即可下载)
  简介:软件大小:4.48 MB 软件类型:国外软件 / 免费软件 / Install-needed 运行环境:Win2000/WinXP/Win2003/WinVista 软件语言:英文版 FreeOCR是一个包括了OCR 2.00引擎的完整的扫描和OCR工具,可以支持多页TIFF文件、传真文件以及大多数图形文件。它体积小巧,简单易用,而且是完全免费的。

3.ABBYY Screenshot Reader 9.0.0.1051 - OCR识别工具  http://www.xdowns.com/soft/softdown.asp?softid=49047
  简介:软件大小:68 MB 软件类型:国外软件 / 共享软件 / Install-needed 运行环境:WinXP/Vista/ 软件语言:英文版 相关链接:官方主页http://screenshotreader.abbyy.com/ 更新时间:2009-1-4 18:38:41

ABBYY Screenshot Reader是一个易用的工具,可以让您迅速获取屏幕图像并且允许您从屏幕进行“即时”OCR。它对摘取文本、表格或者浏览器页面图像、Flash介绍,Windows Explorer “文件”菜单或者错误消息来说是很理想的。当您想要从PDF或图像文件摘取小的节录或文本中的几个句子时,Screenshot Reader也是一个理想的“快速 OCR”工具

使用方法,先下载官方软件http://fr7.abbyy.com/ScreenshotReader/ScreenshotReader_TB_EU.exe,然后下载特别补丁http://x.zuola.net/uploadfile/2009-1/20091421140587.rar 即可,编辑出版网友情提示:商业用途请使用付费版

4.小巧的:Mini Ocr 汉字显示字体识别软件 1.0  (下载:http://www.onlinedown.net/soft/27951.htm )
  简介:软件大小:1.98MB。本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中出现的汉字。Mini OCR是一款免费的绿色软件,你只要将下载的压缩包解压缩到任何一个目录下,然后运行Min iOcr.exe就可以了。只要按照打开图像文件、段落切分、文字识别、保存结果四个简单的步骤,就可以很容易将图像文件中的文字给抠出来。

一、打开图像文件
  单击主窗口左侧的“打开图像文件”按钮,在打出的窗口选择要进行OCR的图像文件,Mini OCR支持的图像格式有BMP、CIF和JPG。如果你的图像文件是其他格式的,可以通过ACDSEE等其他软件进行格式转换。
  二、段落切分
  在对图像中的文字进行识别之前,需要先对页面进行段落切分,即把页面分割成一个一个的文字段落,擦除图像区域,保留文字块,按照切分后段落出现的从上到下的顺序进行文字识别,以期处理图文混排的页面时,能达到更好的识别效果,并排除图形的干扰,加快文字的识别速度。如果直接跳过这一步直接进入文字识别,则软件也会自动插入段落切分。点击“段落切分”按钮即可对页面进行段落切分。

三、文字识别
  点击“文字识别”按钮,即开始对图像中文字进行识别,识别后的字符会出现在右下角的编辑框中,Mini OCR可以识别图像中的出现的汉字、英文、数字和标点,英汉混排时,汉语优先。Mini OCR还针对图文混排、宋体的小字号、汉字粘连的切分,进行过优化设计,识别效果更佳。

四、保存结果
  最后—步当然就是保存结果了,识别后的文字出现在右下角的编辑框里,你可以直接在这个编辑框中进行复制剪切和粘贴操作,当然也可以通过“保存结果”按钮将其保存为TXT文件,默认保存的文件名和先前打开的图像文件名相同。

无论是网页上文字较多的图片还是屏幕上显示的汉字,Mini OCR的识别率还是令人满意的,识别率基本上可以达到90%左右。不过,Mini OCR对英文的识别还有一些问题。如果你是用来识别扫描出来的打印字体,还是推荐你选用知名的商业OCR软件,但Mini OCR可以辅助使用。

5.汉王PDF OCR 8.1 简体中文版 http://big.gd2.xdowns.com/h/HW_PDF_OCR_80.rar (打开后如果显示找不到网页,请刷新一下即可下载)

  简介:软件大小:42 MB。识别率达到90%以上。 汉王PDF OCR是汉王OCR 6.0 和尚书六号、尚书七号的升级版,本软件新增打开与识别PDF文件功能,支持文字型PDF的直接转换和图像型PDF的OCR识别:既可以采用OCR的方式,将PDF文件转换为可编辑文档;也可以采用格式转换的方式直接转换文字型PDF文件为文本。本软件系统应用OCR(Optical Character Recognition)技术,为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。目前,许多信息资料需要转化成电子文档以便于各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。

●识别字符
简体字符集:国标GB2312-80的全部一、二级汉字6800多个。
纯英文字符集。
简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。
●识别字体种类
能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
●识别字号
初号 小六号字体。
●表格识别
可以自动判断、拆分、识别和还原各种通用型印刷体表格

6.FoxitReader  http://soft5.greendown.cn//200911/FoxitReader.rar (打开后如果显示找不到网页,请刷新一下即可下载)

简介:软件大小:4.06MB。支持多种语言界面,默认英语,打开后可以设置中文,不过汉化不完全,还有英文显示,但一点也不影响使用。值得称道的地方在于:点击那个带眼睛的小文档图标,就可以切换到“文本查看器”,整篇文章都是文字编辑状态,纯文字时候识别率非常高,复制文字很方便,我很喜欢。

  此外还可以参考http://www.xdowns.com/soft/4/25/2009/Soft_50716.html

请关注编辑出版网 >资讯 >专业工具
打印 | 收藏 |  推荐给好友
上一篇:PDF破解工具,使其可以打印、复制 下一篇:CAJViewer 7.02 中文绿色免费版:方便查阅期刊文献资料、方便OCR取文字
收藏关注编辑出版网社会热点转载,这里有

宣传