主页 > SEO优化 >

[百度蜘蛛]SEO搜索引擎爬虫的工作原理是什么?

· 文章编辑:孔宇SEO · 所属栏目:SEO优化
    搜索引擎爬虫的工作流程,是SEO的基础篇章,也是每一位从事SEO工作的同仁都应该掌握的必备知识。PHPSEO刚通过整理,绘制了一张图,以便于你不懂技术也能看懂搜索引擎爬虫的工作流程,下面我们一起说一下。
 
    如上图,请大家在阅读下文的时候,对照图中的标号和我一起思考。
 
    1、种子URL
 
    1、所谓种子URL所指的就是最开始选定的URL地址,大多数情况下,网站的首页、频道页等丰富性内容更多的页面会被作为种子URL;
 
    然后将这些种子URL放入到待抓取的URL列表中;
 
    2、待抓取URL列表
 
    爬虫从待抓取的URL列表中逐个进行读取,读取URL的过程中,会将URL通过DNS解析,把这个URL地址转换成网站服务器的IP地址+相对路径的方式;
 
    3、网页下载器
 
    接下来把这个地址交给网页下载器(所谓网页下载器,顾名思义就是负责下载网页内容的一个模块;
 
    4、源代码
 
    对于下载到本地的网页,也就是我们网页的源代码,一方面要将这个网页存储到网页库中,另一方面会从下载网页中再次提取URL地址。
 
    5、抽取URL
 
    新提取出来的URL地址会先在已抓取的URL列表中进行比对,检查一下这个网页是不是被抓取了。
 
    6、新URL存入待抓取队列
 
    如果网页没有被抓取,就将新的URL地址放入到待抓取的URL列表的末尾,等待被抓取。
 
    就这样循环的工作着,直到待抓取队列为空的时候,爬虫就算完成了抓取的全过程。
 
    然后以下载的网页,就都会进入到一定的分析中,分析后进行索引,我们就能看到收录结果了。
 
    对于真正的爬虫来说,先抓哪些页面、后抓哪些页面,以及不抓哪些页面等等都是有一定的策略的,这里讲述的是一个比较通过、普遍的爬虫抓取流程,身为SEO的我们,知道这些足以。
 
蜘蛛抓取
优化技巧
技能培训

更多阅读

一文介绍有机seo如何确保您的网站在搜索引擎结果页中获得排名

行业动态 2020-06-02
如果您拥有一家公司,那么您就会知道用...查看全文

[网站运营技巧]教站长如何利用百度知心算法获取流量

行业动态 2019-06-04
关于搜索引擎知心搜索其实谈不上算法,...查看全文

[站点排名]搜索引擎网页排序的每一个掉排名背后的逻辑观点

行业动态 2019-06-04
在黑帽SEO优化里面流行着这么一种思路,...查看全文
网站地图
扫描二维码分享到微信
确 认
友情链接: