文章关键字 ‘SEO’

HAO123的迷思—-谈谈SEO

2006年03月15日,星期三


都时兴WEB2.0了,我还打算谈SEO,确实有一点落伍。事情是这样的,我最近要写一个无聊的方案书,提纲已经拟了一个月了,就是懒得写正文。所以我决定把内容拆开了写,独立成章,这样可以发挥我离题万里的特性。如果万幸,我能写完这一系列文章,那每篇删去50%,就可以组合成那个预想中的方案书。这个方式如果多人合作来做的话,似乎就有那么点WEB2.0的意思了。好象说远了。

HAO123的性质我以为应该是非常的明显,但后来发现即使是很多IT人士,甚至是高手都得出了错误的结论。当然这更大的可能是说明我错了,但我是那种死不认错的人,你们拿我没办法。

最开始看的一篇文章,是说HAO123充分照顾了初学者的需求,用简单的页面罗列最常去的站点LINK,对网友十分友好、方便,所以很多人都把它当主页。我当时简直要喷饭,稍微有点常识也不会如此吧?我很刻薄,在评论里说作者即使只去个人站长圈子的论坛里看两天,也不会发出如此无知的言论。

但最近我发现几位大腕级别的IT人士,竟然对HAO123也有类似的看法。一人是说中国网民水平低,但他相信如果有更好的站点出现,大家是会接受的,不会只用HAO123。另一人更直接,说他的网站目标就是HAO123,是让那些连后退键都不会使用的网民也能上的网站。

HAO123到底是什么?是低水平网民爱用的,但IT高手看起来傻的站点么?虽然我没见过,但我不排除有人会喜欢HAO123,并主动把它作为起始页。不过,我觉得把它定位为低水平者爱用的站点,主要是满足大家了大家当高手的心理:我还是比很多低水平的人强啊。有多少人(比例)会主动使用HAO123?每一个人都说低水平的人喜欢,可低水平的人在哪里呢?

HAO123是随着搜索引擎成长起来的站点。搜索引擎已经铸造了一代人的上网习惯。想一想我们自己,突然想起什么事,或是遇到一个不懂的词,都会立刻用GOOGLE或者百度来搜索一下。在搜索过程中,我们经常“误入”类似HAO123的站点:你要去下载软件,搜到的是一个有一堆该软件LINK的页面。当然这也对我们有用,但搜索引擎直接搜索到最终页面,不是更好么?为什么需要这么一个中间的页面呢?用术语来说这叫“桥页”。

桥页是SEO常用的手段。所谓SEO是Search Engine Optimization的缩写,搜索引擎优化的意思。就是说用的手段可以使用户搜索东西的时候,让你的网站排列在靠前的位置。搜索引擎既然成为了大家的上网习惯,那排列在搜索结果前面的站点自然会得到更多的流量。HAO123类的站点不仅仅是让自己站点在一两个关键词搜索中排在前面,它首先要让基本所有热门搜索词的结果中都会出现它的结果,而即使这个条目列到很靠后的位置,因为搜索引擎的使用者惊人,还是会带来些许的PV。而当你被收录的和热门搜索词符合的页面非常多的时候,你的站点流量就会很快上去了。

要是一个一般网站要做到这个,需要非常大的人力。比如你是软件下载站点,那要跟踪很多流行软件的更新,发现最新开发的软件,并且要有安装、使用等一系列常识。而且没有人可以在各个方面都做到优秀。一个做软件下载好的站点,不见得做得好MP3,即使也能做MP3,总不能铃声图片也能做?游戏网址 ,宽带电影,软件下载,爱情交友……

HAO123能做到。因为他们根本不关心最终结果,即使有错误也不影响。它要做的就是预先分析最可能的搜索词,然后搜集做这些的网站网址,来一个大汇总。这样搜索什么关键词,它都有一个页面等着你,这虽然也要花精力,但比维护一个“正常”站点要省力多了。而这些页面即使不正确,对用户没帮助,对HAO123也是没损失的。

这样的页面为什么会在搜索结果中排列的还比较靠前呢?首先要说搜索引擎的收录机制。你的网页做的再好,搜索引擎不知道也是白搭。搜索引擎会派出它的“爬虫”,一个自动收集网页的程序,在网上顺着连接,把遇到的每一个页面带回去放到搜索引擎的数据库中。当它遇到HAO123时,它会发现找到了一个“富矿”。

搜索引擎的爬虫不象人那样聪明,它只能按照固定的规则来收取页面。这样它就会比较偏好简单的、好分析的页面。如果一个连接是动态的,后面有太多的参数,比如http://www.tianyaclub.com/New/PublicForum/Content.asp?flag=0&idWriter=0&… 爬虫处理起来就会很累,有的爬虫索性不收录这样的页面,因为这样的动态页面可能都是从数据库中读取的,理论上可以随着你的参数不同,变出无数的页面。也许会构成一个爬虫永远走不出的迷宫。现在搜索引擎都能对付一些动态页面,但它们都更喜欢简洁的固定页面,比如 http://www.hao123.com/music.htm

爬虫喜欢更有效率的工作,收集完一个页面会沿着页面上的LINK再收集下级的页面。这样我们就能判断出它偏好的页面样子:简单,没什么多余的看不懂的结构、程序,最好上面有很多的LINK,可以让自己继续收集。如果这LINK通往的下级页面也是这样,我们可以想象爬虫会高兴的说:可找到你了。我太拟人化了。其实这些是编写爬虫程序的工程师们的想法,他们把这写进了爬虫的工作规则。HAO123类的桥页就符合这样规则。

爬虫有多厉害呢,我曾经做过的网站,有一个类似这样的桥页系统。平常的访问很低,40000左右,但有时会突然暴涨到8万。不用说,我知道,昨天百度的爬虫来访问过了。如果你做的对它的胃口,它会老来,每天吃掉你给它提供的页面。这对搜索引擎来说是可以理解的,它也希望收集更多的页面来提供给用户。(当然我做的不是垃圾站点,这后面还要说)

解决了收录这一步,剩下的要由搜索引擎分析,什么样的站点会排到前面。首先同样它喜欢简单的页面,因为它自己智力有限。其次它喜欢符合规则的页面,有规则它才能判断。桥页因为简单,这两点都会做的很好。然后因为搜索引擎没法用自己使用这些页面凭感觉来判断好坏,所以它重要的参考就是如果别处有更多的这个站点连接,那么说明这个站点更重要。这道理成立,但是桥页很容易做到了这点,因为它是专门做连接的。它添加了一个站点,要求对方也做它的友情连接是很正常的互换。不过它是专门做这个的,它可以得到的友情连接要比“正常”网页要多的多。而且这是相互影响的,当它在搜索引擎地位提高了,它要求别的站点做友情连接时就更可能得到回应,于是形成正循环。

这还是比较“台面”上的技巧。具体到HAO123来说,它还有一系列同类型的站点。它们之间互相做连接,搜索引擎也会因此提高所有这些站点的等级,互相促进。据说ALEXA前列的站点中,HAO123的所有者还有至少10几个同类型的站点。

若这些还算只欺骗搜索引擎的话,剩下的行为就更让那些要学习HAO123的IT大腕考验自己的良心了。HAO123早期是靠病毒修改用户主页的。不仅仅它这么做,它的一系列站点也都这么做,据说它还用过QQ病毒传播。这些现在已经找不到痕迹,它已经成功洗白了自己。但有一点还存在,就是网页总会跳出来提示,让你把HAO123设为主页。即使现在HAO123本身不这么做了,它的子站点依然还有这么做的痕迹。你可能访问一个

Google搜索技术2005年最高机密:Web2.0 大家一起搞

2006年03月15日,星期三

原文链接:http://blog.donews.com/aigaogao/archive/2006/03/14/767873.aspx
建议读原文,这个JJ的文章图啊、表情啊太多了… …


前言
这篇文章本来应该写于5个月前,没写的原因主要是拖拉,到了后来就是一个众所周知不可抗力的原因:忘记了。

话说半年前,爱搞搞曾经为了吸引眼球,成立了个“爱搞搞”互联网学习小组,还自命副组长,布置大家做作业,其中一题就是这个:


3.用任何方法,但不用任何挨踢技术,把自己的名字搞上Google和百度的第一位,并借此比较2者搜索技术的差别。(选做题)

IT专业同学就不用做了,这是我昨天刚刚做完的,第一次能够把我的窝在“爱搞搞”关键词查询时提上Google第一位,花了大概20天左右,每天5分钟。

很好玩的动脑筋游戏,连爱搞搞这样一个挨踢傻女人都能玩的高难度SEO游戏,除了Google需要一些耐心和细心外,这作业不IT,只需要脖子以上鼻尖为水平线的上半球就够用了。呵呵

另提示:百度的难度系数基本为0,不用花太多时间;把Google想象成一只有血有肉的大爬虫就行了。


今天就把这个方法写出来吧,不过希望大家留意我的思路,而不是结果,因为掌握了思考问题的方法,你就能在互联网的天地自己搞搞。



正文
自从2005年9月3日开窝以来,爱搞搞经常屁颠屁颠地跑去Google,盼望自己的小窝哪天能被那只大爬虫收到肚子里面。但每次在那个搜索框输入“爱搞搞”这个关键字,出来的都是别人的网页,而俺的窝却找来找去都没个影儿。



一、只有独特的关键字才能成功吗?

这里顺便澄清一个误区,有些同学以为只有独特的“关键字”才“容易”把自己的做到第一位,如果常用的就不行。

确实,独一无二的容易些,好运的话只要等待就行了,但“爱搞搞”不是独特的,因为北方人可能不了解,广东话有个“搞搞震”的俗语,意思小调皮捣蛋的意思(详见“爱搞搞”官方名字解释),所以互联网上一早就有很多“XX爱搞搞震”、“XX爱搞搞破坏”等等被Google和Baidu收录。

说明这个是为了给大家一个信心,任何一个属于你自己的关键字,只要有恒心,都是可以据为己有的。



二、为什么有的同学自己名字关键字查询结果不在Google第一位?

去年曾经看过一篇Blog,上面说很多名人的窝都没有能出现在Google搜索结果的第一位,这篇文章忘了谁写的,已经找不到。

去年由于Google对BSP程序及RSS技术适应得还不好,所以确实很多人的窝都“答非所问”,我查了几个牛人,例如Keso和木子美,当时他们都不能成为自己名字关键字查询结果的第一位。

但有位同学成功了,就是木木,我开窝前很喜欢去看她的东西,当发现她的窝竟能在自己有关的几个关键字搜索结果都排在第一位时候,我想她一定有独特的成功之道。



三、开始自称爱搞搞

比较一番后,发现木木有个特点,就是写东西的时候喜欢在文中称呼自己“木木”,而别人都只会用“我”,我猜这就区别所在,Google那爬虫看到这里那么多“木木”,就知道这是人家“木木”同学的窝了,于是我就开始在文章中尽量用“爱搞搞”代替“我”。

查了一下记录,第一篇改变的应该是9月15日的《帮小窝模板加上自定义CSS(一)》。



四、怎样把Google爬虫引入搞窝?

Donews不知道是因为.text程序还是主页结构问题,导致站内内容很难被Google收录,前一阶段刘韧和老白玩“毛主席语录”关键字Google排名竞赛,相信深有体会。

因为网站结构对爬虫不友好,不做任何干预的情况下,盼望Google爬虫自己来把有关的帖子收录是很难的。

何况那时候俺在donews上一个人也不认识,想让别人帮忙加上爱搞搞超链接都不行。

我想了一个方法:出去留言。

选择哪个窝呢?首页上天天更新得最勤的都是一个叫Keso的家伙,于是我想,Google爬虫肯定来Donews首页,在首页通过文章链接去Keso那里,我在他那留言,把爬虫引过来搞窝。

据查,我第一次留言是在9月18日《三言二拍:惊喜地发现》,其中也问人家有什么支持中文的离线写blog工具。

从此以后,Keso那里出现了个天天坐沙发的爱搞搞(由于时差关系,我总能第一个留言),没有人知道原来这个傻乎乎的家伙真正目的是为了引诱Google爬虫。



五、Google Catch的重要

天天去Google查,发现有一天那爬虫终于收录了我窝里的文章,但查“爱搞搞”,仍然不在靠前的位置,连第一页都上不了,害得我要用“site:http://blog.donews.com/aigaogao/ 爱搞搞”(就是查在那个路径底下的“爱搞搞”)才能看到自己的记录。

能帮忙的工具还有Catch,这是我一向养成的查阅习惯,因为你的关键字部分突出来了,能够快速决定这个网页是不是你想要的。

顺便说个题外话,很感激Google的妥协,当我年前回中国,发现不能用Google Catch,简直和不能上网差不多,因为当你要查阅一些东西的时候,要通过大量的快速翻阅、关键字不断的转换,才能得到最终的满意答案。

有些人说小乖乖利害,没有编过程序,完全自学把aigaogao做出来,很了不起。其实这里面和我在美国能看到Google Catch,快速全世界乱翻,帮他查找大量参考资料是分不开的,改天我再写写这种“互联网”学堂的学习方式。

在Catch里,很容易就看到“爱搞搞”这个关键字被Google收录的版面,当时我的窝头部还有一句“爱搞搞就是女人,女人就是爱搞搞”,是一个网友说的,我很喜欢就放在头部了,发现Google爬虫也抓到了。还有页面底部的“copyright”旁边的(如下图),原来爬虫看这些。


于是我就在左边栏目加了一堆的“爱搞搞”,还有那个“copyright”,“blogger”……。这就叫做“页面优化吧”。


(点击放大)

六、911的启示

可是Google爬虫仍然不知道俺应该是最“爱搞搞”的,我的条目还是不能排在搜索结果的第一位。

但我发现每天去查的时候,多多少少都有些变化,“搞窝”里的东西越来越多被收录,听说爬虫很久才来一次,怎么会天天或隔天都来呢?

有一天我忽然想起了Google News的成名,据说是因为911,当天很多人都跑去Google查相关的新闻,Google News里面因为能找到最全面的而名声大噪。

这个突发事件需要短时间内的快速自修正,为什么别的搜索引擎做不到Google那么快而准呢?

在Google最基础的广为人知“超链接”指向理论,在这种情况下毫无用处,所以上次老白和刘韧玩“毛主席语录”关键字游戏,号召别人帮自己加链接指向,结果帮他们的朋友反而很多在Google搜索结果反而排在他们前面,说明“超链接”指针已经不是Google搜索技术最主要的核心竞争力。

当然那时候他们还没有玩那游戏,我也没有想得那么清楚。

但我想,我每天去Google查询,还有911时候一下子很多人都查“纽约世贸大厦”之类的关键字,这2件事情有一种关联,Google一定是有机制通过使用人的反应让程序自动调整某个关键字的搜索结果排列顺序。

我们来想象一
下911那天:

第一个查询人A来到Google,面对众多的“纽约世贸大厦”查询结果,但第一页里并没有关于那个突发事件,于是A一直往下找,发现排在第n页里面第X条是这个的,于是他(她)点击进去,离开Google;

第一个查询人B来到Google,也是同样操作,查询人C也是,后面的如此类推……

在短时间内,同一个关键字被大流量查询,而最终大家都选择了排在后面的某一条记录,我想那爬虫一定想,哦,这是热门话题,而答案是那个第X条,它应该排在第一位,于是把这第X条升级。

具体的情形,有兴趣研究SEO(搜索引擎优化)的同学可以展开更丰富的联想,但这已经够俺用了。



七、Google搜索技术已经上升到Web2.0的境界


根据上述联想,我使用这几个方法:

我每天去Google输入“爱搞搞”,那个爬虫最开始不知道“爱搞搞”是什么东西,它肯定着急了,多没面子呀,于是它就想:“我明天出去一定多留意什么是‘爱搞搞’”,越多人问,它越重视,所以它凡碰到有这个关键字就多刨根问底,导致它来搞窝造访也来得特别勤快。
我每天不但自己去Google查,还让小乖乖帮忙,因为我们2个一个在美国,一个在广州,IP不同,让那个爬虫以为“很多人”都对‘爱搞搞’有兴趣,把自己捧成名人。。

最关键的是怎么才能把自己“升”上第一位呢?根据911事件原则,我就每天千辛万苦在后面页面找到自己那条记录,然后点进去,离开Google。也让小乖乖同样操作。不过注意别过分,俺们那时候每天一人查一次而已。

怕那爬虫不懂路,我刚开始查询时候还用“site:http://blog.donews.com/aigaogao/ 爱搞搞”,让它有个参考。



八、一场风波导致被Google惩罚


正当我开开心心看着自己的记录不断上升,已经快要到第一位时候,俺得意忘形犯了个低级错误。

因为我天天上keso那里留言引爬虫,而keso是名人,分值高,所以爬虫误以为他那里是搞窝了,于是第一位是keso的,我的排在Keso下面二级分支,记得那天结果是类似下图:


可一个不留神,俺因为在keso9月24日那篇后面留言开玩笑挑衅人家,结果被一直看俺不顺眼的同学们骂了个狗血喷头,这件事本来不算什么,可由于那页面上出现大量的“爱搞搞”,导致爬虫认定那里才是真的,而我的窝是假的,于是第2天一查,我的窝所有记录几乎都被删除了,只有一条在很后面的页面。

嗨,前功尽弃呀,只能眼泪往肚子里咽,然后继续咱的作弊方法。但那以后我不敢再去keso那里留言了,怕那爬虫又误会了。



九、傻瓜女人的求证艰辛之路

用了一个星期左右,在9月30日前的某天俺终于把“爱搞搞”第一位给抢下来了,前后大概用了十几天时间。

我为自己成果雀跃万分,但却不等于别人就相信你(嗨,做女人难,做一个聪明的不挨踢女人更难),小乖乖虽然帮我一起web2.0喂Google爬虫,但他认为那是陪我玩,我那方法根本是毫无“科学根据”的。上北京,见到很多程序员,他们也说没有听说过Google会那样。

俺不服气,因为天天看着搜索结果的变化,我认定那爬虫就是俺自己辛劳“喂养”大的,它一定像宠物般能懂人话。

于是在一次激烈争论后,我和小乖乖因为各不相让,决定实践出真知,用科学的方法“华山论剑”。

当我们上网时候,每一步向外发送的操作都是由无数的“数据包”沟通完成的,有些软件是专门抓这些“数据包”内容的。

小乖乖当场用软件一抓,果然发现了当点击查询结果时候,有一个数据包是向Google发送的,证明了我的“瞎猜”是正确的,Google确实利用大伙web2.0帮它“投票”作查询结果的自修正。

有兴趣搞搞的同学可以玩一下,小乖乖推荐这2个软件:netmon(是windows 2000 server带的,也可以在XP下用)和Iris(挺好用的一个)。



十、不争气的百度

喂爬虫的方法只能用在Google,百度没有这个机关,很不明白它怎么不跟上web2.0的步伐呢?永远都比Google慢很多,而且仍然停留在“超链接”指向这种初级阶段。

俺刚开始还Google&百度两个爬虫同时喂的,结果发现百度那只笨死了,教了半天都不懂,我在天涯曾经开了一个窝,没有登几篇东西,但当发现百度终于有进步的时候,却是把天涯那窝排在Donews这个前面了,很明显,它认为天涯比Donews有名,那里的“爱搞搞”一定比Donews这个更爱搞。



十一、作业

上进的同学通过这个事例,请记住一个道理:互联网上没有什么专家,你只要好好学习,敢想敢干,有一天你也会是专家。

俺喜欢布置作业,虽然现在工作忙,不能成立学习小组了,趁今天也布置一下作业,如果有同学能自己动手用数据包拦截软件把Google web2.0的论证过程记录下来,请在这个帖子后面留言处写上你的帖子超链接,俺帮你的窝卖广告。



另外,喜欢乱搞搞的同学,这里为你准备了一些有关SEO的清单:

《研究一下Google和Baidu是怎么样研究我们的》

《将Google玩死》

《HAO123的迷思—-谈谈SEO》

《大家知道李兴平把hao123卖了在干什么了吗?》

《一年来ALEXA中文网站排名的数据分析》



Update:

今天看了一下回复,没想到大家那么热烈,看来同学们对做坏事的兴趣还是比较大,这里要补充几个东西:

第一、你每天去Google查询和“点”之前先要把本地cookies清空

这个昨天忘写了。如果不清,Google那爬虫就知道只有一个家伙整天问“爱搞搞”,它一定不是名人,来造访的频率就不高。

爬虫造访频率高的好处是:假如每次来发现你窝(网站)内容又更新了,它就认为:哦,这是个好地方,值得多收录。类似规律很多,这里不一一阐述,有兴趣的同学去google多用“SEO”等关键字查询,学习一下英语资料就行(千万别看中文的,很多都是骗人的,还有人把网上英文资料翻译后卖1000多块钱一本书呢,强烈建议大家练好英语然后自己翻译成书,咱们卖50一本,把这市场搞乱)。

第二、有些同学说我成功是因为别人链接,还误以为俺用了5个月,这里把时间顺序整理一下

日期 乱搞搞
9月13日左右 开始去Google查”爱搞搞”
9月15日 在《帮小窝模板加上自定义CSS(一)》自称”爱搞搞”
9月18日 去keso《三言二拍:惊喜地发现》后面留言引爬虫
9月18日~24日 发现爬虫开始造访搞窝,于是进行页面优化
9月24日 已经成为第一名(keso)下的子级,但在《东拉西扯:从哪儿获取新闻》后面留言乱搞被人骂
9月25日 被Google惩罚,把我的窝所有记录几乎都删除了,只有一条在很后面的页面
9月25日~28日 继续点击,但不敢再去keso那里留言了,怕那爬虫又误会了。
9月29日 成功了,在”爱搞搞”一词查询里面成为第一位
9月30日 布置大家开动脑筋做作业,见《第二次作业》

全部时间其实只用了十几天,如果不是9月24日那场风波,估计25日就能到位了。

为了明天的搜索引擎优化

2006年01月9日,星期一

原文链接:http://blog.adsenser.org/?action=show&id=63

  我十分羞于说SEO, 因为我本身不擅长SEO之道, 并且我也比较不愿意谈及所谓的SEO, 所以我还是用搜索引擎优化来表达我想说的意思。

  流行的就很容易会被误导, 比如搜索引擎优化, 这就是为什么那么多人把description和keywords里塞满内容、四处毫无目的地交换链接、使用搜索引擎机器提交等等。

  你知道你的站为什么会被降权和被搜索引擎删除结果吗? 那是因为搜索引擎认为你在作弊, 尽管你一再号称你只是在优化, 并且给他们解释优化和作弊不是一个概念。优化搜索引擎和作弊之间只有一线之隔, 更重要的分辨优化和作弊不是根据站长的申明, 而是搜索引擎的衡量结果。

为什么而优化

  为了流量, 这是最直接的答案。不过你知道哪些流量对你更加重要吗? 我十分不理解那些做汽车站点的放置一个大长今的专题或者美女图片来吸引流量的目的, 他是想获得用户还是仅仅是想看着计数器不断增长而产生的成就感?

怎样优化

  很多书都在写优化的技巧, 每个人也都有优化的方式, 不过只有一个办法是最值得信赖的, 那就是为了明天的搜索引擎优化。如果说你的优化方式能很快为网站带来几千甚至几万的流量, 但是可能会被搜索引擎删除结果, 那么这就不是一个好方法。做网站不是一朝一夕的事情, 保持网站长期的正常的发展才是最值得做的, 暂时性的小计俩应该被唾弃。

商业的优化服务

  谨慎再谨慎, 不要随便相信任何SEO公司, 那些自己都整天在更换域名的公司它凭什么可以让你的站点长期有效地占据比较好的位置。SEO通常会告诉你成功之后再收费, 这里隐藏的风险也很大。一是如果不成功, 他们顶多不收取费用, 而你可能面临被删除结果的危险; 即使成功了, 如果他们采用的是不正确的方式, 或许只在3个月或者更短的时间内有效, 而更长期的时间里你面对的却是更高的风险。

最有效的优化方式

  1、简单直观的网站层次结构
  2、稳定的服务器和域名访问(服务器IP和域名注册年限)
  3、有价值的内容(原创, 避免转载高度类似的内容)
  4、经常性、及时的更新
  5、加入Dmoz和yahoo目录
  6、适当的相关内容站点的链接

  做到以上6点, 你根本不用在关键词和描述里使用过多的内容, 也不用在页面内容里制造无聊的关键词, 也不用费尽心机地增加链接。

  然后就是静静地等待你的搜索结果慢慢地往上爬。

百度降权,封杀站点的标准是什么

2006年01月9日,星期一

原文链接:http://www.fullsearcher.com/n200585153529735.asp


caoz:1:百度降权,封杀站点的标准是什么

9238:
第一,http://www.baidu.com/search/spam.html 是百度公开和唯一的标准,百度的反spam一直依此处理。就像所有其它搜索引擎一样,百度不能公开所有反spam细节,已公开的部分已经是搜索引擎中算很透明的了。

第二,在百度搜索引擎中对某些站点降权或去除的目的主要是反spam(或者叫反垃圾),反spam的唯一目的是提高用户搜索体验。百度反spam对所有网站一视同仁,不会因为任何网站是百度的客户或合作伙伴而降低惩罚标准,也不会因为任何网站与竞争对手合作或停止与百度的合作而加重惩罚。在百度中,有权限参与网站降权处理的只有了了几人,他们每一个都是极端的搜索爱好者,他们也有完全的自主权和独立性,不用关心处理哪个网站会影响流量或收入,不用给任何部门、任何同事或任何网站面子,他们唯一关心的是用户搜索体验。

第三,搜索引擎优化行为对用户体验的破坏程度是线性分布的,百度反spam是机器自动识别和人工识别互补的体系。既然有识别就有判断的阈值,无论是自动识别还是人工识别,无论把阈值定在哪里,那些阈值附近的优化行为判断总是容易引起争议的。在所有支持中文的搜索引擎中,百度也许已经是反spam做得最努力的,但中国网民在百度的搜索体验仍然每天被spam严重破坏1500万次以上(spam网页出现在搜索结果前10名)。因为中文spam面广量多,因为百度反spam打击也面广量多,即使阈值附近的争议网址只占很少的几个百分点,也可能导致每天有几十个网站有资格对于被惩罚表示异议,这不是百度愿意看到的,但现实点说,无法指望短时间内大幅度减少这种问题,也无法指望能人工一一回复每个提出异议的网站。

另外,对于加入百度搜索联盟并且达到一定搜索量的网站,我们有一个优待政策:在发现自己被降权后可以申请立即复查一次,如果复查发现网站上已没有spam行为,则可以安排尽快取消降权。但这个权利只能用一次,一旦该网站在例行检查、网友举报、或不定期复查中被再次发现spam,那么无论谁也救不了它了。



caoz:hao123的发展思路是什么?第一,如果想加入新站点,目前是什么政策?据说收费了?费率多少?第二,以前被收录的站点会不会有政策处理上的变化?这是他们很关心的问题。

9238:
详细的发展思路是商业机密,我不能在此公开。但可以回答你一个具体的问题,所谓hao123已改为收费登录那是假的,每个频道只是卖少量广告(百度对广告的控制极严,没有在hao123原有基础上增加任何flash或banner,每个频道广告链接原则上不超过5个,不达到一定质量要求的网站即使广告也不卖给它,负责hao123用户体验的员工对广告有一票否决权),但现在肯定没有全面收费,今后的一段时间内也没有这个打算。以前被收录的站点不会有处理策略的变化,hao123的用户体验或者被收录网站的质量是挑选和更新的唯一标准。



caoz:百度mp3搜索的策略与mp3音乐站长群的矛盾如何化解

9238:
迄今为止百度的mp3信息几乎都是从百度的网页库中提取出来的,而百度的spider一直遵守国际通行的robots协议,不愿意被百度收录mp3信息的站长只要写一句robots协议就能阻止百度spider再收集信息(以前收集的信息需要等一段时间被更新后才消失),在百度的用户帮助信息中提供了详细的robots协议写作教程:http://www.baidu.com/search/robots.html

caoz:不知道百度对故意重复的定义是什么,比如donews首页的标题,有大量的IT重复出现,是否算做故意重复呢?又比如前几天突然被降权的9flash.com。他在页面里所重复的“flash”关键词,是不是属于“故意”面向搜索引擎做的呢?我们可以这么测试一下,把“flash电影”和“电影”两个词比较,可以等同吗?不等同说明flash这个词在这里,是必要修饰词,把“flash音乐”和“音乐”两个词比较,可以等同吗?不等同说明flash这个词在这里,是个必要的修饰词,下面的不用解释了,我觉得这个其实很容易理解,如果在对方站点里出现的某些关键词在该站点的内容和连接表述中,属于必要修饰词,并且该关键词所出现的段落和连接有其正确的表述价值,那么这种重复,就不能说是“故意重复”,我不知道百度认同否?



2 百度降权,封杀站点的标准是什么

9238:
反spam的唯一目的是提高用户搜索体验。我们不会为了反spam而反spam,不会对所有违反规则的网站施加相同的惩罚,关键在于,用户查看某个关键词的搜索结果时,你的网站对用户是否有价值、这个价值是否值得你排在那个位置?

即使donews对IT重复了,如果在IT这个关键词的搜索结果中没有排在非常不该排的位置,没有对用户搜索体验造成明显破坏,那么理想状态下donews仍不会受惩罚。9flash如果只对flash关键词优化,那么不太容易受到惩罚,但如果对电影关键词优化,那么很容易受到惩罚。

明白的说,网站spam与否是网站的自由,百度无权干涉也没兴趣理睬,但如果哪个网站的行为或效果破坏了中国网民在百度搜索的体验,那么百度也有升级算法、降权、直至拒绝收录这个网站的权利和兴趣。其实各位站长完全没必要把百度怎么想当一回事,站长们只要把百度的搜索用户当一回事就行了,只要你的网站对用户有搜索价值,百度急着升级算法把你排到合适的位置都来不及呢,哪里敢把你降权什么的呢。



caoz: 故意制造大量链接指向某一网址的行为。

我觉得这个条款简直可以让所有的站点纳入作弊的范畴。

百度有个联盟,把代码投放到千万个站点上,算不算“故意制造大量连接指向某一网址”?这个是个玩笑,但是事实是,所有的站长,特别是那些没有能力做大幅度广告预算的个人站点,他们的网络推广途径的重要步骤,就是和大量的不同站点交换连接,交换连接,不就是“故意制造大量链接指向某一网址的行为”吗?这是其一。如果我做了一个站点,我又申请了blog,我又申请了donews,我又申请了什么什么,我又泡论坛,那么我肯定会把我的站点连接放在每个我能放网络连接的地方告诉大家,比如论坛签名档,比如blog的连接,比如donews个人介绍,等等,有没有搜索引擎我都会这么干,站长怎么发展流量?坐等吗?这是其二。商业公司要发新闻稿,公关稿,网络时代了,网络媒体也很重视,一个稿子发新浪搜狐网易千龙天极等等等等,每个稿子上都会有这个公司的连接,又是故意制造大量连接指向同一网址。这是其三。请百度的朋友解释一下,怎么叫“不故意制造大量连接呢”,做好站点,放在那里,等别人连接或者干脆不要外部连接,也许只有国家政府机关的网站会这样。

9238:上一个回答也能用在这里吧?谁爱做链接就做吧,但别针对与自己网站内容不相关的关键词做,即使相关的关键词,也别排到特别不合适的位置去。其实,百度能自动过滤不少可疑链接,所以某些制造链接的行为根本不会受到惩罚,因为对排名不会有任何影响。

>


caoz:有链接指向作弊网站的网站,负连带责任,也会被认为是作弊

这个最狠,简直是连坐,大清朝倒台后好象就不兴这个了。不过互连网本身就是由大量的连接组成的,这个方式搞下去,恐怕是人人自危吧,我这么说吧,A站作弊(证据确凿,验明正身),B站上不巧给A站做了连接,那么B站被认为是作弊,那么C站上偏偏也给B站做了连接,得,既然B站已经被认定也是作弊,道理同样,C站指向作弊站点,也是作弊,D站又有C站连接,惨了,这么连下去,和百度的Spider没啥区别(相当于倒过来爬);洪桐县里没好人,互联网上没好站,大家彼此彼此。

其实百度真要这么搞也可以,每天公布一个封杀作弊站点列表,并给相关连接站点一天的取消连接的准备期,这样站长们就会每天上来看谁是最新的倒霉蛋,看看在不在自己站点的友情连接里,并且用最短的时间和对方划清界限!消除连接,以免殃及自身不是。




9238:
这条规则,是针对某些拥有一大批域名互相链接作弊的人。从百度中降权或消失对于每个中文网站都是大事,我们不会轻易的批量惩罚的,事实上只有在对某些网站之间的关系相当有把握时才会激活这个惩罚规则,而且,虽然批量链接作弊是机器自动识别的,但识别出的每一个网站在被正式惩罚前都会经过人工验证,几乎不可能误杀。

普通的友情链接再多也不会受惩罚,但仅限链接所用文字是合适的网站名,如果用关键词做链接,则很容易被识别为spam。