【IT168 实用技巧】看到一个不错的帖子,想把它转帖到自己的博上。于是像往常一样,涂黑选择,复制,粘帖……但是复制后的内容怎么不一样了,夹杂了很多乱码字符,根本无法正常阅读?
很多朋友都有过这样的体验。在一些网站和论坛,为了防止内容复制,在文档空隙自动插入了干扰码。这些字符在浏览网页时不可见,但是一旦被复制粘帖,则会全部“帖落石出”,严重影响阅读。有些内容为关键代码,更是被破坏得面目全非。
怎么办呢?是耐心地对着屏幕重新输入,还是如芝麻中挑沙子一样,手工筛删呢?其实,无需那么麻烦,几个简单的办法就可以轻松让这些干扰码蒸发干净。
一、偷天换日,WORD 高级替换
我们注意到,这些乱码字符之所以在网页上不显示,是因为其字体颜色设置了与网页底色相同,而骗过了眼睛。
这些乱码字符没有规律,无法用常规办法筛选,它们的唯一相似点就是字体颜色,那么是不是可以根据这一标志,来个“金里淘沙”呢?常用的 WORD 软件就可以完成这一使命。
新建一个 WORD 文档,复制包含乱码字符的文字到其中。 WORD 文档保留了原网页内容的大部分格式,我们可以看到,那些捣蛋鬼还是处于隐藏状态的。
点击菜单“编辑”中的“替换”,在弹出窗口中,激活“高级”选项,并在“格式”中选择“字体”。(图1)
图1 |
图2 |
TIPS:有个别的网站或者论坛,干扰码是采用超小字符的方式隐藏的。同样的道理,在 WORD 中选择干扰码的字符大小进行筛查替换即可。
更多热点:Photoshop 视频教程 图片教程 开发速查手册
二、斗转星移,使用转换工具
自古,有矛就有盾,有干扰也就有去干扰工具。比如“超级转换工具”
打开在线的转换工具,将复制的内容一股脑倒入文字框中。这时可以看到,在各段文字中间夹杂了很多乱码,甚是碍眼。
勾上下面的“通用屏蔽干扰码”,这就是“盾”。然后,点击一下“开始转换”按钮。好了,文字框中已经得到了“蒸发净化”后的文字。此时,要烤(拷贝)要煎(剪切)就随你了。(图3)
图3(点击看大图) |
TIPS:有很多类似的网页转换工具都可以实现该功能。另外,如果你嫌每次打开这些网页麻烦,还可以直接使用一些针对浏览器的插件,比如 maxthon 的“清除烦恼”插件、 greenbrowser 的 liquid layout 插件、 Firefox 的 CleanHide 插件等,操作更加方便。
更多热点:Photoshop 视频教程 图片教程 开发速查手册
三、将错就错,OCR识别
前面两招出手,一般的识别码已经通吃了。如果很不幸,你遇到了一个例外,怎么都搞定不了,怎么办呢?还有一个终极大法—— OCR。
首先,使用 “prscrn” 键截屏。如果内容比较多,比如涉及卷页,可以使用 HprSnap、 SnagIt 等专业的软件来处理。
打开附件中的画图板,粘帖图片,并进行简单处理,切割掉不需要的部分,然后另存为 TIFF 格式。如果是使用专门截图工具,则可以输入为 TIFF 格式,或者将格式转换为 TIFF。
(这是因为MICROSOFT OFFICE DOCUMENT IMAGING 只能支持 TIFF 格式。我们下面以 MICROSOFT OFFICE DOCUMENT IMAGING 为例进行说明,你也可以采用尚书 OCR、清华紫光 OCR 等专门的软件进行,它们支持 JPG 、BMP等其他格式,而且识别率可能更好一点。)
用 MICROSOFT OFFICE DOCUMENT IMAGING 打开刚才获得的 TIFF 文件,在菜单栏“工具”中点击“使用 OCR 识别文本”,以及“将文本发送到 WORD,如图4。
如4(点击看大图) |
这一方法无需关注网页采用的是哪种干扰方法,通用性较高,但是缺点是操作略显麻烦,而且在 OCR 过程中容易出现识别错误等情况。一般来说,只要不采用特殊字体,没有复杂的背景干扰,OCR 的识别效率还是非常高的。