互联网 频道

论坛转贴无忧 干扰码蒸发密令!

    【IT168 实用技巧】看到一个不错的帖子,想把它转帖到自己的博上。于是像往常一样,涂黑选择,复制,粘帖……但是复制后的内容怎么不一样了,夹杂了很多乱码字符,根本无法正常阅读?

    很多朋友都有过这样的体验。在一些网站和论坛,为了防止内容复制,在文档空隙自动插入了干扰码。这些字符在浏览网页时不可见,但是一旦被复制粘帖,则会全部“帖落石出”,严重影响阅读。有些内容为关键代码,更是被破坏得面目全非。

    怎么办呢?是耐心地对着屏幕重新输入,还是如芝麻中挑沙子一样,手工筛删呢?其实,无需那么麻烦,几个简单的办法就可以轻松让这些干扰码蒸发干净。

相关精彩文章

    一、偷天换日,WORD 高级替换

    我们注意到,这些乱码字符之所以在网页上不显示,是因为其字体颜色设置了与网页底色相同,而骗过了眼睛。

    这些乱码字符没有规律,无法用常规办法筛选,它们的唯一相似点就是字体颜色,那么是不是可以根据这一标志,来个“金里淘沙”呢?常用的 WORD 软件就可以完成这一使命。

    新建一个 WORD 文档,复制包含乱码字符的文字到其中。 WORD 文档保留了原网页内容的大部分格式,我们可以看到,那些捣蛋鬼还是处于隐藏状态的。

    点击菜单“编辑”中的“替换”,在弹出窗口中,激活“高级”选项,并在“格式”中选择“字体”。(图1)

图1
    在打开的“查找字体”对话框中,选择字体颜色为白色。(如果网页上的干扰码是其他颜色,则选择相应的字体颜色。)(图2)
图2
    确定,返回,此时可以见到我们所要查找的内容为“字体颜色:白色”。接下去就简单了,直接点击“全部替换”,于是这些隐藏的乱码字符已经全部“秒杀”。

    TIPS:有个别的网站或者论坛,干扰码是采用超小字符的方式隐藏的。同样的道理,在 WORD 中选择干扰码的字符大小进行筛查替换即可。

更多热点:Photoshop 视频教程 图片教程 开发速查手册

    二、斗转星移,使用转换工具

    自古,有矛就有盾,有干扰也就有去干扰工具。比如“超级转换工具”

    打开在线的转换工具,将复制的内容一股脑倒入文字框中。这时可以看到,在各段文字中间夹杂了很多乱码,甚是碍眼。

    勾上下面的“通用屏蔽干扰码”,这就是“盾”。然后,点击一下“开始转换”按钮。好了,文字框中已经得到了“蒸发净化”后的文字。此时,要烤(拷贝)要煎(剪切)就随你了。(图3)

图3(点击看大图)
    使用“通用屏蔽干扰码”可以应付大部分的干扰码。有时候发现不灵,那么就可以采用其备用的“以字体颜色屏蔽乱码”,填上屏蔽颜色,同样操作即可。这一原理与前面的WORD 高级替换类似,不赘述。

    TIPS:有很多类似的网页转换工具都可以实现该功能。另外,如果你嫌每次打开这些网页麻烦,还可以直接使用一些针对浏览器的插件,比如 maxthon 的“清除烦恼”插件、 greenbrowser 的 liquid layout 插件、 Firefox 的 CleanHide 插件等,操作更加方便。

更多热点:Photoshop 视频教程 图片教程 开发速查手册

    三、将错就错,OCR识别

    前面两招出手,一般的识别码已经通吃了。如果很不幸,你遇到了一个例外,怎么都搞定不了,怎么办呢?还有一个终极大法—— OCR。

    首先,使用 “prscrn” 键截屏。如果内容比较多,比如涉及卷页,可以使用 HprSnap、 SnagIt 等专业的软件来处理。

    打开附件中的画图板,粘帖图片,并进行简单处理,切割掉不需要的部分,然后另存为 TIFF 格式。如果是使用专门截图工具,则可以输入为 TIFF 格式,或者将格式转换为 TIFF。

    (这是因为MICROSOFT OFFICE DOCUMENT IMAGING 只能支持 TIFF 格式。我们下面以 MICROSOFT OFFICE DOCUMENT IMAGING 为例进行说明,你也可以采用尚书 OCR、清华紫光 OCR 等专门的软件进行,它们支持 JPG 、BMP等其他格式,而且识别率可能更好一点。)

    用 MICROSOFT OFFICE DOCUMENT IMAGING 打开刚才获得的 TIFF 文件,在菜单栏“工具”中点击“使用 OCR 识别文本”,以及“将文本发送到 WORD,如图4。

如4(点击看大图)
    然后,我们就可以在指定位置得到一个同图片名的 htm 文件,用 IE 或者 WORD 打开,即可直接复制净化后的文字内容,而再无干扰。

    这一方法无需关注网页采用的是哪种干扰方法,通用性较高,但是缺点是操作略显麻烦,而且在 OCR 过程中容易出现识别错误等情况。一般来说,只要不采用特殊字体,没有复杂的背景干扰,OCR 的识别效率还是非常高的。

更多热点:Photoshop 视频教程 图片教程 开发速查手册

0
相关文章