互联网 频道

论坛转贴无忧 干扰码蒸发密令!

    三、将错就错,OCR识别

    前面两招出手,一般的识别码已经通吃了。如果很不幸,你遇到了一个例外,怎么都搞定不了,怎么办呢?还有一个终极大法—— OCR。

    首先,使用 “prscrn” 键截屏。如果内容比较多,比如涉及卷页,可以使用 HprSnap、 SnagIt 等专业的软件来处理。

    打开附件中的画图板,粘帖图片,并进行简单处理,切割掉不需要的部分,然后另存为 TIFF 格式。如果是使用专门截图工具,则可以输入为 TIFF 格式,或者将格式转换为 TIFF。

    (这是因为MICROSOFT OFFICE DOCUMENT IMAGING 只能支持 TIFF 格式。我们下面以 MICROSOFT OFFICE DOCUMENT IMAGING 为例进行说明,你也可以采用尚书 OCR、清华紫光 OCR 等专门的软件进行,它们支持 JPG 、BMP等其他格式,而且识别率可能更好一点。)

    用 MICROSOFT OFFICE DOCUMENT IMAGING 打开刚才获得的 TIFF 文件,在菜单栏“工具”中点击“使用 OCR 识别文本”,以及“将文本发送到 WORD,如图4。

如4(点击看大图)
    然后,我们就可以在指定位置得到一个同图片名的 htm 文件,用 IE 或者 WORD 打开,即可直接复制净化后的文字内容,而再无干扰。

    这一方法无需关注网页采用的是哪种干扰方法,通用性较高,但是缺点是操作略显麻烦,而且在 OCR 过程中容易出现识别错误等情况。一般来说,只要不采用特殊字体,没有复杂的背景干扰,OCR 的识别效率还是非常高的。

更多热点:Photoshop 视频教程 图片教程 开发速查手册

0
相关文章