OCR:如何把扫描版pdf转变成文字版?--688IT编程网

我经常在阅读扫描格式pdf的时候，把它们抓取为文字格式，当然得是好书。可能有朋友不清楚ocr，它就是把文字从图像中识别抓取出来。文字版pdf的好处就是便于传播、引用，视觉上清晰，具有更大的处理空间，乃至可以二次制作，比如出于手机什么的阅读需要。但是，ocr过程中的文字识别率不会是100%，需要进一步校对，所以在这个意义上粗制滥造的文字版pdf还不如扫描原版的价值。

我分享自己的一点ocr经验，也是想更多的朋友制作文字版好书，也因为很多的朋友不熟悉ocr。

ocr软件很多，这里只根据自己的经验进行推荐，而忽略其他。

首先说单页pdf的ocr

这种单张图片式的文字抓取我强烈推荐JOCR。JOCR的优点是免费绿轻量（绿就是不需要安装），体积小到几乎不可思议的不到100kb。然后不可想象的是，这么小的软件其识别率还非常高，而且可以抓取20多种语言，包括中文繁体，夫复何求。

JOCR（原版、版、使用说明、MODI及“繁体中文识别”文件）下载：

vdisk.weibo/s/uImX

网路上有版，其实不必。它常用功能很简单，一般就是第一步“Capture Region（选取需要ocr的区域）”，然后在语言框选择语言，最后“Recognize（识别）”，于是就为你蹦出一个txt文本，接下去你还可以就着这文本进行校对。

注意：

1、要成功使用JOCR，首先得保证在安装office时选择了“完整”安装选项，因为JOCR的运转是依托于Microsoft Office Document Imaging （MODI，中文OCR辨识引擎）的。Office 2003的缺省安装是第一次使用MODI时安装，Office 2007的缺省安装是不装，都需要自己主动安装一下。如果你没有完整安装office，也可以只是再安装一下MODI，微软官方有下载。

2、如果需要抓取繁体，而你使用的是简体windows系统（即比如安装的是简体中文Office 2003），那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

TCCODE.UNI

TCPRINT.DAT

TCPRINT2.DAT

TCSERHT.DAT

TCTREE.DAT

TW_BU.DAT

TW_UB.DAT

TWBIG532.DLL

然后双击reg文件导入注册表，ok。注意，导入注册表时必须先关闭所有MODI窗口。

此时，在MODI的OCR选项卡里，“OCR语言”中即可看到“中文（繁体）”，也就是说依托MODI运作的ocr软件具有了繁体识别功能。

或许你要问，JOCR的使用特别是繁体不免麻烦了一点点。我的回答是，推荐JOCR正是因为它要利用到MODI及其繁体识别功能。一般的ocr软件往往对繁体无措或者效果不如意，而微软MODI的效果非常的理想，我上一篇日记《马克思——披上科学外衣的诗人革命家》用的就是它，几乎就没有改正几个字（原文是竖排的）。所以说磨刀不误砍柴工，而且是微软自带的，省事省心。

然后说pdf批量ocr

一本pdf格式的书籍有很多页，自然要用批量才行。一般认为最强大的专业ocr软件是ABBYY FineReader，“世界排名第一的OCR文字识别工具”是也。ABBYY FineReader不依托MODI运作，不免费体积也很庞大，不过微软免费的MODI才5M多一点点。一个好状况是，热心的网友已经制作了中版，见“最好的OCR识别软件：ABBYY FineReader中版”/abbyy-finereader/。我自己比较ABBYY FineReader与MODI的效果，个人觉得MODI略胜一筹（主要在文字识别率上），至少难分上下。MODI抓取的结果只是文字，没有字体版式啥的，而ABBYY FineReader貌似有还原版面的追求，所以可能反而把问题复杂化（特别是在word中作修改可能叫你崩溃，当然你需要版面什么的另当别论）。

所以有鉴于此而推荐采用微软自带的MODI。

MODI的一般使用方法是：在打开的pdf文档“文件”-“打印”-“名称”中选择“microsoft office document imaging writer”，打印你需要的（所有）页面（这个乃至后边生成的文件地址最好在桌面一类，不然起来费神）。于是，它生成一个后缀名为mdi的文件。你打开这个mdi文

件，在“工具”中选择“使用OCR识别文本”，然后开始可能是很漫长的识别过程，电脑不给力的话一本数百页的书可能漫长到两三个小时。识别结束后，你再在“工具”中选择“将文本发送到Word”，然后它为你生成一个后缀名为htm的文件，里头就有你想要的文字了。

关于ocr繁体中文，就需要用到上边“繁体中文识别”的方法。在复制拷贝那几个文件后，你打开mdi文件，在“工具”-“选项”-“OCR”中就能看到“中文（繁体）”选项，需要时选中即可。

fine是什么意思

也许，把一本扫描版的pdf转换成文字版的pdf，最核心的部分其实是校对。如果那个文字版内容错误如毛毛，可真叫人纠结。只是对于大部头书籍校对的工程很有些浩大，当然也可以叫你静心精读，何乐不为。分享会让你心情愉快。朋友如果校对也好了，要分享，那还得把版面排好，至少得比我强一点点（比如那个《马克思——披上科学外衣的诗人革命家》pdf），否则又是一块油炸鸡肋。一般地，排版的工具手头的word就够用，况且很多pdf制作软件是从word直接转pdf，很方便实在。

对于word转pdf，一般都采用pdf打印软件，就是在word打印中选择相应的打印机直接就打印成pdf，如下图。我用过的Word to PDF Converter效果很不错，但是它不免费，而且上次碰到一个字的字体嵌入错误（

abbyy finereader 数学符号希腊字符特殊字符

« 上一篇

品牌数码相机系列字母的意思

688IT编程网

OCR:如何把扫描版pdf转变成文字版?

发表评论

推荐文章

TCPIP协议簇每一层的协议

TCPIP协议的工作原理和应用

计算机网络TCPIP协议栈的工作原理与应用

android adb 原理

fig详解

热门文章

TCP-IP,以太网链路层协议802.3,PPP,SLIP协议之间的联系与区别_百度文 ...

LabVIEW 中支持TCPIP网络通讯研究

计算机学科专业基础综合计算机网络-23

modbus tcp协议在simatic pcs7与第三方通讯中的应用

几种开源的TCPIP协议栈分析

C语言网络协议TCPIP和HTTP

【第1题】HTTP协议属于TCPIP协议的( )

tcpip中用于数据查询的协议

集成tcpip协议栈的芯片

超然嵌入式TCPIP协议转换模块RevisionBEM-100TManual

基于Qt的TCPIP网络通信实现

嵌入式TCPIP协议栈在单片机上的实现

基于TCPIP的多数据流传输测控系统的设计与实现

tcpip应用层常用协议

TCPIP协议的设置

tcpip知识点总结

tcpip协议论文

什么是TCPIP协议栈?栈是什么意思?

S7200组态王通讯的问题MODBUS

TCPIP 协议分析实验指导书

最新文章

TCPIP协议的工作原理和应用

计算机网络TCPIP协议栈的工作原理与应用

android adb 原理

fig详解

Windows端口大全及端口关闭方法

基于ModbusTCP柏楚TubePro与倍福PLC通信测试

标签列表