加入收藏 | 设为首页 | 会员中心 | 我要投稿 92站长网 (https://www.92zz.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

百度 谷歌搜索引擎原理及新网站面对

发布时间:2022-03-04 10:41:10 所属栏目:优化 来源:互联网
导读:第一节 搜索引擎原理 1、基本概念 来源于中文wiki百科的解释:(网络)搜索引擎指自动从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。 来源于英文wiki百科的解释:web search engines provide an interface to search for information on t
  第一节 搜索引擎原理
 
  1、基本概念
  来源于中文wiki百科的解释:(网络)搜索引擎指自动从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。
  来源于英文wiki百科的解释:web search engines provide an interface to search for information on the world wide web. information may consist of web pages, images and other types of files.(网络搜索引擎为用户提供接口查找互联网上的信息内容,这些信息内容包括网页、图片以及其他类型的文档)
  2、分类
  按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(fulltext search engine)和分类目录directory)。
  分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如“网址之家”(http://www.hao123.com/)。
   3、全文搜索的工作原理
  全文搜索引擎一般信息采集、索引、搜索三个部分组成,详细的可由搜索器、分析器、索引器、检索器和用户接口等5个部分组成
  (1)信息采集(web crawling):信息采集的工作由搜索器和分析器共同完成,搜索引擎利用称为网络爬虫(crawlers)、网络蜘蛛(spider)或者叫做网络机器人(robots)的自动搜索机器人程序来查询网页上的超链接。
  进一步解释一下:"机器人"实际上是一些基于web的程序,通过请求web站点上的html网页来对采集该html网页,它遍历指定范围内的整个web空间,不断从一个网页转到另一个网页,从一个站点移动到另一个站点,将采集到的网页添加到网页数据库中。"机器人"每遇到一个新的网页,都要搜索它内部的所有链接,所以从理论上讲,如果为"机器人"建立一个适当的初始网页集,从这个初始网页集出发,遍历所有的链接,"机器人"将能够采集到整个web空间的网页。
   (2)索引(indexing):搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。索引可以采用通用的大型数据库,如oracle、sybase等,也可以自己定义文件格式进行存放。索引是搜索中较为复杂的部分,涉及到网页结构分析、分词、排序等技术,好的索引能极大的提高检索速度。
  关键点1:虽然现在的搜索引擎都支持增量的索引,但是索引创建依然需要较长的时间,搜索引擎都会定期更新索引,因此即便爬虫来过,到我们能在页面上搜索到,会有一定的时间间隔。
  关键点2:索引是区别好坏搜索的重要标志。
  (3)检索(searching):用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。有的系统在返回结果之前对网页的相关度进行了计算和评估,并根据相关度进行排序,将相关度大的放在前面,相关度小的放在后面;也有的系统在用户查询之前已经计算了各个网页的网页等级(page rank 后文会介绍),返回查询结果时将网页等级大的放在前面,网页等级小的放在后面。
  关键点1:不同搜索引擎有不同的排序规则,因此在不同的搜索引擎中搜索相同关键词,排序是不同的。
 
  第二节 百度搜索引擎工作方式
 
  我所知道的百度搜索:由于工作的关系,小生有幸一直在使用百度的百事通企业搜索引擎(该部门现已被裁员,主要是百度的战略开始向谷歌靠拢,不再单独销售搜索引擎,转向搜索服务),据百度的销售人员称,百事通的搜索核心和大搜索的相同,只有可能版本稍低,因此我有理由相信搜索的工作方式大同小异。下面是一些简单介绍和注意点:
  1、关于网站搜索的更新频率
  百度搜索可以设定网站的更新频率和时间,一般对于大网站更新频度很快,而且会专门开设独立的爬虫进行跟踪,不过百度是比较勤奋的,中小网站一般也会每天更新。因此,如果你希望自己的网站更新得更快,最好是在大型的分类目录(例如yahoo sina 网易)中有你的链接,或者在百度自己的相关网站中,有你网站的超链接,在或者你的网站就在一些大型网站里面,例如大型网站的blog。
  2、关于采集的深度
  百度搜索可以定义采集的深度,就是说不见得百度会检索你网站的全部内容,有可能只索引你的网站的首页的内容,尤其对小型网站来说。
  3、关于对时常不通网站的采集
  百度对于网站的通断是有专门的判断的,如果一旦发现某个网站不通,尤其是一些中小网站,百度的自动停止往这些网站派出爬虫,所以选择好的服务器,保持网站24小时畅通非常重要。
  4、关于更换ip的网站
  百度搜索能够基于域名或者ip地址,如果是域名,会自动解析为对应的ip地址,因此就会出现2个问题,第一就是如果你的网站和别人使用相同的ip地址,如果别人的网站被百度惩罚了,你的网站会受到牵连,第二就是如果你更换了ip地址,百度会发现你的域名和先前的ip地址没有对应,也会拒绝往你的网站派出爬虫。因此建议,不要随意更换ip地址,如果有可能尽量独享ip,保持网站的稳定很重要。
  
  第三节 谷歌搜索排名技术
 
  对于搜索来说,谷歌强于百度,主要的原因就是谷歌更加公正,而百度有很多人为的因素(这也符合我国的国情),google之所以公正,源于他的排名技术page rank。
  很多人知道page rank,是网站的质量等级,越小表示网站越优秀。其实page rank是依靠一个专门的公式计算出来的,当我们在google搜索关键词的时候,页面等级小的网页排序会越靠前,这个公式并没有人工干预,因此公正。
   page rank的公式这里省略,说说影响page rank的主要因素
  1、指向你的网站的超链接数量(你的网站被别人引用),这个数值越大,表示你的网站越重要,通俗的说,就是其它网站是否友情链接,或者推荐链接到你的网站;
  2、超链接你的网站的重要程度,意思就是一个质量好的网站有你的网站的超链接,说明你的网站也很优秀。
  3、网页特定性因素:包括网页的内容、标题及url等,也就是网页的关键词及位置。
 
  第四节 新网站如何应对搜索
 
  以下内容是对上面分析的总结:
 
  1、搜索引擎为什么不收录你的网站,存在以下可能(不绝对,根据各自情况不同)
 
  (1)没有任何指向链接的孤岛网页,没有被收录的网站指向你的超链接,搜索引擎就无法发现你;
 
  (2)网站中的网页性质及文件类型(如flash、js跳转、某些动态网页、frame等)搜索引擎无法识别;
  (3)你的网站所在服务器曾被搜索引擎惩罚,而不收录相同ip的内容;
  (4)近期更换过服务器的ip地址,搜索引擎需要一定时间重新采集;
  (5)服务器不稳定、频繁宕机,或者经不起爬虫采集的压力;
   2、新站如何做才正确(仅供参考)
  (1)和优秀的网站交换链接;
  (2)广泛登录各种大网站的网站目录列表;
  (3)多去质量好的论坛发言,发言要有质量,最好不要回复,发言中留下自己网站地址;
  (4)申请大网站的博客(新浪、网易、csdn),并在博客中推广自己的网站;
  (5)使用好的建站程序,最好能生成静态页面和自动生成关键词;
  (6)重视每个网页的标题,以及<head>区域,尽量把符合的关键词放在这些容易被搜索索引的位置,重视文章的开头部分,尽可能在文章的开始部分使用类似摘要的功能(可以学学网易的文章样式)。

(编辑:92站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读