|
出处:PConline 作者:太平洋新闻中心 Inuki
2002年9月的时候,微软的研究人员曾经发现了一个奇怪的现象:来自德国的网页的更新率每周要比其他地区的网页快上九倍。问题出在哪里?原来,有一个德国的色情业主当时正疯狂的制造数以千计指向他的色情站点的网页,间接使得他的网站排名在各大搜索引擎的排行榜上节节上升。
目前,这种被专家所谓的“垃圾网页”正给今天的搜索引擎带来日益严重的影响和恐惧。和肆虐于用户收件箱的垃圾邮件相仿,垃圾网页会以大量毫无用处的链接拥塞搜索引擎的列表,然后把用户诱骗到制造者的网站上,借以提高其访问率。如果用户不去选择搜索引擎检查得到的答案,那么这些网页同样能弹出一个广告来骚扰你。
多年以来,多家耳熟能详的搜索引擎,如AltaVista,Yahoo和Google都不停的与企图在其搜索列表中混得名次的诡计做斗争。其中有一部分小规模的活动是某些网络公司所为,但余下的,则是有组织有预谋通过大量的垃圾网页充斥搜索结果的列表,而其链接通常指向的都是一些色情或者折扣抵押的站点。而像Google一类的站点通常通过统计指向某个网站的链接数量来评定其排名,这样一来就给了那些弄虚作假者以可乘之机:只要指向你的网站的链点越多,那你在搜索列表中的位置当然也随之上升。
对于普通的网络用户来说,垃圾网页或许是一个陌生的名词,但搜索引擎本身却是倍受其害。“网站上的垃圾是一个很大的问题”,SearchEngineWatch.com的副总编Chris Sherman说,“它的严重性不次于垃圾邮件。”
Google也深刻的认识到这个问题,它在网站上发表措辞严厉的警告说,企图在其搜索结果中作假的网站将在名单中被整体移除。不过由于目前的排名策略仍然不变,因此目前的警告措施估计也难见成效。对此Google则拒绝发表任何评论。
显然,搜索引擎和垃圾网页发布者之间的斗争已经发展成一种猫鼠游戏。在本月较早前揭发德国色情业主伎俩的三名微软研究员提交的论文中,他们称可以通过统计的方法将这些垃圾网页同合法的网页区分开来。例如,垃圾网页的种类每个星期都会有新的变化,因为会不断的有新的网页出现来愚弄搜索引擎。而且,由自动生成的网页通常看起来相当的相似——它们要么具有相同的单词数量,要么有相似的关键字和词汇。搜索引擎可以借此来检测到这些网页,从而将其排除在搜索范围之内。而且另一条线索显示,若一个网站的名字由很多点,字符,横线或者数字组成的话,那么它很可能就是一个垃圾站点。这些研究者还发现,在他们搜寻到1.5亿个Web站点中,约有8.1%属于上述的垃圾站点。
对于两者斗争的前景,专家表示搜索引擎本身就一直占得上风:“我不觉得垃圾网页会将Google拉下马,不过这是一场从不停歇的脑力较量。”同时,居心叵测者还有另一招更方便,更稳妥的做法——购买广告。这样一来,他们就可以避开与Google的计算机科学家们直接斗智的危险性了。
只有注册用户才能发表评论。 请登录或注册 |