三、将错就错,OCR识别
前面两招出手,一般的识别码已经通吃了。如果很不幸,你遇到了一个例外,怎么都搞定不了,怎么办呢?还有一个终极大法—— OCR。
首先,使用 “prscrn” 键截屏。如果内容比较多,比如涉及卷页,可以使用 HprSnap、 SnagIt 等专业的软件来处理。
打开附件中的画图板,粘帖图片,并进行简单处理,切割掉不需要的部分,然后另存为 TIFF 格式。如果是使用专门截图工具,则可以输入为 TIFF 格式,或者将格式转换为 TIFF。
(这是因为MICROSOFT OFFICE DOCUMENT IMAGING 只能支持 TIFF 格式。我们下面以 MICROSOFT OFFICE DOCUMENT IMAGING 为例进行说明,你也可以采用尚书 OCR、清华紫光 OCR 等专门的软件进行,它们支持 JPG 、BMP等其他格式,而且识别率可能更好一点。)
用 MICROSOFT OFFICE DOCUMENT IMAGING 打开刚才获得的 TIFF 文件,在菜单栏“工具”中点击“使用 OCR 识别文本”,以及“将文本发送到 WORD,如图4。
如4(点击看大图) |
这一方法无需关注网页采用的是哪种干扰方法,通用性较高,但是缺点是操作略显麻烦,而且在 OCR 过程中容易出现识别错误等情况。一般来说,只要不采用特殊字体,没有复杂的背景干扰,OCR 的识别效率还是非常高的。