首页 > 网站推广 > 经验心得

百度baidu和google的差异对比分析

发布时间:2016-10-10 08:42

baidu和google是两大搜索引擎巨头了,baidu中文搜索最牛B的,google在英文搜索最牛B的,那么它们在差异在哪里呢,下面我整理了两篇心得。

差异之一:收录

  我写一篇新的文章,很快就能从google搜索出来,并且排第一,然后后面是其它转载的网站。
  很久以后,我仍旧从百度搜索不出来我写的文章,搜出来是有些转载的网站,当然文章还是我写的。
  终于又过了很久,我可以从百度搜素出我写的文章了,但是前面几个都是转载的。

差异之二:改版

  前不久把博客的URL小改动了一下,然后看到百度站长工具提供的改版功能,配置改版,写了正则。过了很久,发现覆盖URL数依旧是<5.
  突然有天想起,就从google用site搜索了下,出来的全是新地址。我从来没告诉google我改版了。
  于是也从百度site了下,出来的依旧是旧地址。而这时,距离我提交百度站长改版配置已经过了半个月。

这就是实实在在的差别,百度从来不公布它的Baidu PageRank,是有原因的。

差异三,“中文分词”技术上百度优于谷歌

第二无论是国内其他seo搜索引擎还是谷歌在“中文分词”和“中文词典”的积累上,包括部分搜索技术与百度都有巨大的差距。

Google在技术性文章,尤其是含有很多特殊符号的情况下,支持好太多,而且google的技术性文章收录量更大啊,因为谷歌收录偏原创性,独特性(百度偏向权威性和页面内容之间的相关度,偏向中文网页,英文内容基本忽略。毕竟百度是中文搜索引擎,不是国际化搜索引擎,就好比你可以用MSN嘲笑QQ上找  不到老外网友差不多),就专业文章无论是内容数量还是英文分词以及对特殊符号的支持都好百度太多。

而百度对中文分词要远好于谷歌,这得益于百度强大的中文分词技术,以及中文网页基数和中文词典的完备,所以搜索中文娱乐性,生活型,社会性文章要好谷歌很多,但技术性文章上谷歌甩百度几条街。

 

不管你是apache或iis服务器我们开启了日志功能就会看到有大量的像200,302之类的状态代码了,很多新手站长都不知道这些是什么意思,下面我来与大家一起看看关于网站日志中的200/301/404/302/500状态代码的意思。


 1、蜘蛛名称介绍

  在网站日志中,蜘蛛名称一般有一下几类:百度->baiduspider、Google ->Googlebot、Msn ->msnbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider 。在日志中,只要搜索以上蜘蛛名称,就可以看到该蜘蛛类型的爬取痕迹。

  2、蜘蛛爬取返回类型

  在蜘蛛爬取后会返回代码,通过查看贷款状态可以看到爬取结果,主要HTTP状态码有一下几类:

  (1)200代码,表示蜘蛛爬取正常。

  (2)304代码,表示自从上次抓取后,该内容没有更新。一般情况下,网站的图片经常会返回该值。

  (3)404代码,访问的这个链接是错误链接。这个错误链接,一方面来自原本存在后来删除了网页,另一方面可能来自本来就不存在,但其他人外链了这么个死链接。

  (4)302代码,表示临时重定向。

  (5)301代码,表示永久重定向。

  (6)500代码,表示程序有错。

  3、日志代码解读

  #Software: Microsoft Internet Information Services 6.0

  #Version: 1.0

  #Date: 2013-12-22 16:00:39

  #Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Cookie) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-taken

  date表示记录访问日期;

  time访问时间;

  s-sitename表示你的虚拟主机的代称。

  s-ip访问者IP;

  cs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个 URL访问的动作,二是POST,提交表单时的动作;

  cs-uri-stem就是访问哪一个文件;

  cs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;

  s-port 访问的端口;

  cs-username 访问者名称;

  c-ip 来源ip;

  cs(User-Agent)访问来源;

  sc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;

  sc-substatus 服务端传送到客户端的字节大小;

  cs–win32-statu客户端传送到服务端的字节大小;

  具体案例分析:

  2013-12-22 18:47:12 W3SVC2137573334 D-901195C886694 119.147.151.150 GET /a.aspx id=2230&TypeId=91 80 - 123.125.71.28 HTTP/1.1 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) - - www.111cn.net 200 0 0 59004 243 2250

  这段日志表示,Baiduspider:表示蜘蛛爬取类型为百度蜘蛛,GET /a.aspx id=2230&TypeId=91表示蜘蛛爬取文件名为a.aspx id=2230&TypeId=91。返回结果为200。


小提示

如果你希望更精准分析网站日志可以尝试使用专用的工具来进行分析如有iis日志分析工具与apache日志专业分析工具哦。

原创文章被大站或权重高的站抄袭怎么办呢喃?到目前为止还是存在众多的原创站长无辜的被牵连受罚,目前百度判断原创文章的技术实在不敢恭维。那么至今到底让站长要执行原创还是采集的路线呢?百度的技术实在让那些原先一直走原创的路线丧失了写原创的动力。那么如今我们该如何保护原创呢?

第一、 写好文章要在第一时间内通过ping机制ping给百度

  可能你的网站还不能保证你写完文章后在短时间就有蜘蛛过来爬行,那么我们是否可以通过其它途径来使我们的文章更能让百度视为原创呢?如今的ping机制在一定程度上可以间接的让百度在时间上初步的区分原创来源。所以,小网站在弄原创文章的时候切记一定要通过ping机制ping给百度。

  第二、 网站一定要安装sitemap并让他时时自动生成

  我们都知道蜘蛛爬行一个网站通常情况下首先爬行的robots,目的是要检测我有哪些页面可以爬行,哪些页面自己是去不了的。所以,目前的众多站长还是不知道可以在robots里面上写上你的sitemap地址,这样就可以大大的促进你sitemap被蜘蛛爬行的几率。我们都知道sitemap自动生成就相当于你一整个网站的链接都在里面,所以要让蜘蛛对爬行sitemap才能让你的页面更多的被抓取被收录。

  第三、 以外链指向数目来间接的辅助百度识别

  我们都知道一个人是不是坏人不是一个人说的算,要的是多数的认可,才能进一步的确定。所以,文章是否原创我们也可以通过外链指向数目的多少来辅助百度更准确的识别。那么我们该怎样做呢?下面就由小编介绍我自己以往的做法:

  1)、>>将你的网站所有页面链接整理出来

  我们都知道sitemap包含我们全站的所有页面链接,所以我们可以从sitemap入手。我们打开sitemap页面,然后把里面的内容全部复制到你的excel中。

  

 

  通过excel功能框里面的数据筛选进行整理出每个页面的唯一链接,把不是页面链接的内容全部清理掉,做法是选择A 列,然后点击数据,再在里面筛选-自动筛选,然后点击A列右下角的小三角形,点击后选中里面的自定义,然后在自定义功能显示框下拉里面选择包含,然后相对应的右侧输入框输入你的网站域名,然后点击确定,结果如下图所示

  

 

  通过上一步的操作,还是存在一些字符。那么我们接下来可以通过替换进行去除我们不要的东西,从上图我们可以看出存在的不要的字符有和。好吧,接下来的操作不做就是在excel里面通过键盘快捷键(Ctrl+h)打开替换功能框,然后在查找内容里面输入,替换内容里面为空,再点击全部替换,这样就轻松的清除当前工作表里面的全部,去掉则通过以上同样的步骤进行操作便可。最终完成图如下

  

 

  然后,通过一些查收录平台进行筛选出哪些已经被百度收录哪些没有被百度收录,把没被百度收录的文章页面整理出来,然后实时的跟踪该文章是否已经被其它站长采集了,如若已经被采集了,那么我们就可以通过拿该文章到不同的平台进行投稿,然后把在底部备注原创来源。来源便是填写该文章的链接。这样的话我们就大大的增加了该文章的指向数目,这样就可以大大的辅助百度对原创文章的识别。

关于SEO,入行入得比较早,06年就开始,然后经过培训就正式上班了,途中也有过几次跳槽,几经转折,12年来到了现在的深圳的一家公司,公司对SEO看得比较重,并且从百度获取的业务比重较大,占总业务的45%。所以公司组建了一个几个人的SEO团队,分工明确。

网站是早先就做好的,有13年的域名历史,之前也有专门的团队负责,但老板并不满意效果,所以撤掉了原来的SEO团队,重新组建了我们现在的团队。说到这点,以前和同行交流的时候,经常听到抱怨老板不懂SEO有多么惨,其实我觉这是错误的,至少站在我的角度上,老板不懂你至少还可以忽悠下,而面对懂一点SEO的老板,这才叫难缠。很不幸,我所在的团队就碰上这样的老板。

  前期的SEO工作进行得很顺利,所以公司的营销网站的关键词上升得有条有理,老板总体很满意,所以在接下来的工作中,团队也整体较轻松,不置于否认,现在据我所知,每个公司的SEOer,45%的人在做完相应的工作后,都会有很多的空闲时间,当然除了目前奋站在一线的那些编辑、友链专员之类的SEOer。

  但是就在近期,老板开始发牢骚了,他对公司网站的主词排名并不满意(一个6000多指数的词,高峰时有8000多),这个词一直在首页第九,第十徘徊,之前为了做这个词,团队基本的心思都在这个词上,甚至也购买了不少高质量链接,长期的,这点钱老板还是很爽快的,因为这个指数实在是有点高了,而老板的眼睛又一直盯在这个词上,在前两页,带来的业务也有些的,但老板每天催促着要上首页,而到了首页,又催促着上前三,我想这也是作为SEOer最为常见却又不得不接受的苦逼生活。

  终于经过半年多的时间,排名终于在以前的基础上跃进百度首页,但比较尴尬的是,一直漂浮在首页第九、第十乃至第十一位,并持续了很多一段时间,而老板也越来越来显得有点不耐烦,这给团队带来很大的压力。

  有一点SEO常识的人都知道,排在首页进前三,其实难度比进首页大多了,因为排在前面的站都是基础极为优秀的站点,而排在我们网站前面的网站更是有三个是相当知名的老牌站点了,而若想超越这些站点,我们都知道只有通过用户的点击,那么如何去获取这些点击呢,即使知道百度已经处理了当下市面上的点击软件,但我们还是抱着有一点希望的心态去试了一下,买个VIP,结果是可想而知的,没效果,其实在成员小艾主张用点击器的时候,我知道这没用,即使有用,现在的软件也点不了这么高的指数词,毕竟这几年磕磕碰碰的SEO之路,也了解了不少东西。

  很快我们放弃了用软件这个念头,不过马上我们迎来了转机,在与主管群管理交流时,一句闲言改变了格局,当时团队依旧在做着数据分析,趁着空闲在一个SEO主管群发了几句牢骚,救驾,高指数的词上不去?当然一开始其他地区的主管们都是围观状态,没事再做做,我再一句,词上不去,团队要被撤退啊。还好,经常一起闲扯的群管理先人答应解决。

  没有过多的了解,但经常在一起闲扯最多的就莫过于他了,而且是个疯狂的图片党,但群里的人对他很友好,马上,他给我了一份简单的方案:QQ+QQ群。

  他给我出的主意是,团队几个人停掉所有的工作,在淘宝购买大批QQ,再利用批量加群软件,每行每业能搜到的群都加,加的群一定要多,再就是群发消息。

  好吧,看到这,我觉得他是耍我的,不就是骗点击吗,因为在群里也没见他正经过,只知道群里的其他人对他很友善,很喜欢问他问题,但是很快我觉得他的方法可行,他说关键在于群发的消息内容,如何去创造点击,创造有效的点击。

  他提醒我购买的群发工具首先要去掉版权,这样消息才显得真实,其次,发的消息一定要抓住群里的人好奇心,然后飞快的给我手打了几份模拟群发消息。(附原稿,因为是QQ上交流的,可以完全复制/偷笑)

  1、比如加的是男生交流QQ群,你可以发:哎哟我去,我发现了在百度上搜“XX(关键词)”,进入首页最后一个网站,他里面有一个页面藏了很多苍老湿的大片,哈哈哈,这样都被我发现了。”(/偷笑,看到这句我觉得有点意思,男生走在一起,交流最多的莫过于些了,看到这个,不敢保证群里的人都会按照规则去搜,但一定会有不少人好奇去被引导),而且他交待,页面一定要说得很模糊,让他们自已去找,这样效果才会好。

  说实话,看到这个,我觉得有点意思了,大家都知道搜关键词进入首页,然后点击进入再马上退出,跳出率是十分高的,效果会大打折扣,而这样做真绝了。

  2、女生群,比如你可以假装发错了消息:姐,我这个LV包包不是他买的,他哪有钱买这么贵的包包,是我无意在百度搜“XX(关键词)”,进入首页最后一个网站,然后看到他一个页面有抽奖活动抽的,起初我也不相信,但它就是这样给我发货了,真的不是男朋友买的。

  然后你马上跟着一句:哦哦,不好意思,发错了人。 这样效果会很好。

  这一个真的是笑喷我了,因为在发这条消息的时候,还收到很多陌生人的咨询:没有啊,找了很久都没找到那个抽奖页面?可不可以告诉我抽奖页面在哪?我怎么没找到?诸如此类的消息。

  这一条完全抓住了现在女生的心理,呵呵,女生爱占小便宜,还有,LV包包的诱惑有点大。

  3、律师群:大家看一下,我发现了在百度上搜“XX(关键词)”,进入首页最后一个网站,他们底部的律师顾问是谁啊,是不是很有名声,我也想找这样的律师做顾问。

  这个,真的没有想到这个也可以,但相信大家都知道大网站底部都会有个律师顾问。好吧,膜拜了。

  ……

  于是我决定试一下,第一天在淘宝买了大批等级高的QQ群,然后批量加群,再用群发消息发布团队成员的创意语句,老板上班过来咨询的时候,注意到了,当向老板解释清楚后,因为他也懂得点击的原理,他也觉得值得一试,表示看看这几天的变化。

  很搞笑的,经过三天的这样的循环工作后,一直不动的关键词终于排到前二了,老板批准我们团队三天假。

  之后在家闲置的时候,跟好友说起这个,有了交流,他们问我这样做上去稳定吗,呵呵,排名到现在已经坚挺了两个星期多了。

  当然,很重要的一点,发消息的时候我们也注意了时间段,避免跟软件一样的笨拙点击。

  看完这个,很多人也许都会想试一下,在这里,郑重提醒一下,用这种方法,手底下必须有个解除风险的高手。在说这个方法时,先人就明确告诉了我,先找个善于解除风险的人合作,而正好我们团队成员王成是这方面的行家。因为毕竟这种带有些欺骗性的点击会让一些人反感,于是网站被个别人举报神马的,也是不可避免的。

  收笔,下次再聊,近段时间会很多空闲时间,就跟大家分享些SEO方面的知识。(文/马锦荣)

什么是搜索结果匹配?非常简单,我们把它分成完全匹配和部分匹配。那么究竟什么是完全匹配呢?我们先来举个例子,百度搜“seo是什么”,结果中出现红色的字就是匹配项。

  从网站的优化标准来看,完全匹配是优于部分匹配的。假设我们的网站和竞争对手网站的其他因素完全一样,那么谁是完全匹配,谁的排名就会好。那为什么有些完全匹配的排名是低于部分匹配的呢?原因很简单,影响关键词排名的因素有很多,匹配原则只是其中一项,即便是在这项原则上面,你和其他网站是不同的,但是仍要把每一项的因素都做好,你的排名才会上来,超越排名往往在于细节。

  下面就来看看那么完全匹配和部分匹配之间存在的联系。很多时候我们的标题里面没有这个关键词,而只是在内容中含有这个关键词,这个页面同样也会进行排名。这是因为搜索引擎会根据网页的内容来智能提取关键词,我们也经常可以看到网页快照的描述会和原来不相同的情况。

  

百度知道文字搜索结果
百度知道网址搜索结果

 

  当我们搜索“百度知道”的时候,而百度知道的描述就是对这个页面的描述,所以搜索引擎就会直接调用百度的描述,但是如果直接搜索百度知道的网址,那么就不会出现百度知道的官方描述,这里我们搜索的关键词是网址,而且这个网址又是百度知道的网址,所以就会出现百度知道,并且这个路径又是唯一的。那么为什么会出现网站的底部呢,我们点开快照,会发现在网站的底部出现baidu的关键词和搜索结果进行了匹配,而我们搜索的网址里面包含了百度的关键词拼音,所以百度就进行了关键词相关。

  并不是所有的网站都是这种情况,当搜索结果不能完全匹配的时候,那么就会出现正向完全匹配,也就是说会从网页正文出现搜索词的时候进行抓取。我们搜索什么样的关键词,百度就会进行什么样的匹配。就好比我们的穿着,我们见什么样的人,在什么样的场合,穿什么样的衣服是不一样的,说到这,相信很多朋友都已经理解了这其中的关系。有时候我们有排名,但是描述不一样了,就是因为我们的描述没有任何匹配度,这种情况下,百度就不会采用原有的描述。

  写描述的时候要考虑全面,在设置时不要遗漏一些重要词的匹配,这时候我们就要思考2个问题,第一,我们就要考虑一下这个网页的内容哪些用户会需要;第二,这些需要的用户还会搜索哪些次找到我们的网页

 

标签:[!--infotagslink--]

您可能感兴趣的文章: