【IT168 专稿】建立人才数据库限时一周,牛哄哄欲哭无泪。情急之下,稻糠马仍不忘乘机“杀肥”。牛哄哄请客三藏咖啡吧,稻糠马亲自出马,指点牛哄哄学会《网络信息采集专家》,度过难关......
话说白龙马从西天取经的路上回来,赶上了中国dot.com的大潮,就化名稻糠马,毅然投入到了软件与互联网的革命事业中去,几年下来,也在软件和互联网界小有名气。正当他打开笔记本电脑和网上MM聊天时,牛哄哄冒了出来。
牛哄哄急事相求,稻糠马乘机杀肥
“稻糠马,找你急事!”牛哄哄在QQ上的牛角闪个不停。“哟,牛哥多日不见,怎么变得急性了?”稻糠马不慌不忙,一边敲着键盘,一边把最新的唐僧牌“稻糠片”塞进嘴里。
牛哄哄急了,“没急活真不找你。牛魔王决定发展奶制品产业,下令要我建立一个牛人数据库,就是人力资源库,而且限定一周完成,我哭都没有眼泪啊。”
稻糠马微微一震,“一周时间?建立人力资源库?这,是有些棘手,让我想想办法。”
一阵噼里啪啦的键盘敲击之后,稻糠马长长吐出一口气,“哎,没戏,没戏,除非……”
牛哄哄小心翼翼地接过话茬,“除非什么?”
稻糠马蹦出话来,“除非你请我喝咖啡,我给一个十分厉害的网络信息采集软件,你就知道该怎么办了。”
牛哄哄乐了,“马哥别卖关子了,别说请喝咖啡,现在喝吗啡我都上。至于这个网络信息采集软件是个什么东西?倒是没有听说过,兄弟好歹去过西天,也算是海归了,见多识广,给我讲讲。”
稻糠马在QQ上留了几个字:三藏咖啡吧见。
下页更精彩:三藏咖啡吧说法,稻糠马亮出法宝
三藏咖啡吧说法,稻糠马亮出法宝
原来,三藏咖啡吧正是唐僧退休回来开设的一个咖啡吧,唐僧在稻糠马的策划下,把这个咖啡吧弄成了“唐朝风韵+佛学经典+西方品味”的一个主题文化吧,倒也生意兴隆。
三藏咖啡吧里,稻糠马正呷着咖啡,学着唐僧般地姿态给满头大汉的牛哄哄说法,“这个问题,是很严重的问题嘛。当然,不是严重问题,你也不会来找我。既然你找我,我就一定要给你解决这个问题,以后我但凡吃饭、喝茶、品咖啡,叫你买单,肯定不会有任何问题,Right?”。一旁牛哄哄汗如雨下,不知道是热的还是听着这话渗得慌。
“你的这个问题,首先是要依靠搜索引擎找到信息源,然后,你要找到一个好的工具把这些数据自动获取和保存下来。要不然,手工的弄,光COPY PASTE就能把你这牛哄哄整爬下了。别看你这些年牛哄哄的,可只会用用word打打字,用QQ聊天。正经的东西,一点都没长进。今天要给你介绍的这个法宝,叫《网络信息采集专家》。它是由BOneB软件工作室历时两年的时间研发成功的、基于互联网的信息采集软件。它可以从互联网上采集任意网页上的信息,并根据设定的规则,从网页中分析提取出特定信息并整理存放在你指定的数据库中。任何组织都可以通过《网络信息采集专家》从互联网上抓取一系列网页,只要输入起始网址和要抓取的Url地址标识,并定义元数据在网页中大概存放的位置,其余的工作《网络信息采集专家》会帮助你自动完成!”
牛哄哄开始两眼放光了,“马哥就是马哥,可是,我该怎么到那里找到这个软件,又怎么用呢?”
稻糠马不慌不忙,打开了笔记本:“为了更加深入的了解《网络信息采集专家》的性能,我来亲自出马,给你做做示范吧。”
“首先,我们可以通过打开网址http://www.boneb.com,点击下载使用版(如图1)。”
图1:网络信息采集专家网站 |
“这个文件大概2Mb,如果通过flashget下载应该很快!嗯,不错,能够达到80k,三藏咖啡吧的宽带速度还不错。”
“打开这个软件包,用winrar或者其他解压缩软件解压,点击setup.exe,就进入了安装程序,一路点击“下一步”就可以很方便的完成安装,默认安装在C:\Program Files\WebInfoCollectore\ 目录下面,主要文件名叫WebInfoCollector.exe。安装完毕后,桌面便会生成一个图标(如图2),
图2 |
双击该图标就可以打开《网络信息采集专家》,牛哄哄,鼠标就交给你了,你来自己体验吧。”
下页更精彩:牛哄哄亲自体验,再演草船借箭
牛哄哄亲自体验,再演草船借箭
牛哄哄连忙接过鼠标,老老实实地按照稻糠马的说法双击了桌面的“网络信息采集专家”的快捷方式,很快一个新的窗口蹦了出来。
“打开后,我们可以很直观看到,从上到下,该软件的几个重要界面区域分别为菜单栏,工具栏,任务工作区,浮动面板,结果状态区(如图3)。实际上,该软件最为重要的几个按钮就是“新建任务,编辑任务,开始”,稻糠马继续说。
图3:网络信息采集专家工作界面 |
“在任务工具区里面,我们可以看到,软件内置了几个示例任务。要不怎么说今年你运气好呢?睁大你的牛眼看看?第三个任务是什么?”
牛哄哄定睛一看,差点乐出声来,“是新浪人才-示例!”
稻糠马说,“这不就得了吗?踏破铁鞋无觅处,得来全不费功夫!你就拿着这个示例任务开始抓取、整理数据吧。打造你的牛人数据库样板工程。”
下页更精彩:牛哄哄完成采集过程
牛哄哄按照稻糠马的指示,把鼠标移动到了任务工作区的“新浪人才-示例”上面,点击开始,采集网址刚才还是空的,一会功夫,就看到N多抓取的结果出现在结果状态区,很多网址结果按照次序排列(如图4)。
图4:网路信息采集专家 默认示例任务采集结果 |
牛哄哄看着这么多数据被采集进来,又惊又喜,“马哥,这些采集完的信息怎么看啊?”稻糠马撇了撇嘴,“很简单,点击浮动面板的“已采集信息”就可以(如图5)。”
图5:查看已采集信息 |
下页更精彩:保存结果数据
牛哄哄点击了浮动面板上的“已采集信息”,看到结果页面后大吃一惊,嘴巴张得牛大。原来,所有的信息已经被分门别类地采集回来了,而且全部按照数据库格式保存下来(如图6)。
图6:采集信息的具体内容 |
“马哥!太牛了!这些采集的详细信息怎么保存呢?”牛哄哄的声音有些变调了。
稻糠马敲了敲桌子,“Are you kidding?我是马,不是牛。省下这句话给牛魔王吧。实际上,只需要在任务栏目里点击‘结果数据’的按钮就可以保存了(如图7),试用版的这个功能模块没有开放,只有正式版本才有,点击后会自动打开一个Access数据库文件,可以进一步编辑。你要用,怎么着也得来个企业版,2000多一点。如果是标准版的,才不到1000元。”
图7:保存结果数据按钮 |
牛哄哄笑了,“哈,太好了,我这就给我们财务打个电话,要她赶紧我给买一套企业版的。这下任务可以完成了!马哥,您要什么尽管点,算我的,算我的。”
稻糠马点了点头,“嗯,算你厚道啊。本来还要给你讲讲如何定制个性化抓取的,那就下次吧。服务员,再来杯咖啡,最贵的那个啊......”