匍匐是什么?
匍匐指的是查找引擎蜘蛛从已知页面上解分出链接指向的URL,然后沿着链接发现新页面(也便是链接指向的URL)的进程。当然,蜘蛛并不是发现新URL立刻就爬曩昔抓取新页面,而是把发现的URL存放到待抓地址库中,蜘蛛依照必定次序从地址库中提取要抓取的URL。
抓取是什么?
抓取是查找引擎蜘蛛从待抓地址库中提取要抓的URL,拜访这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取便是像浏览器相同翻开这个页面,和用户浏览器拜访相同,也会在服务器原始日志中留下记载。
索引是什么?
索引指的是将一个URL的信息进行收拾,存入数据库,也便是索引库,用户查找时,查找引擎从索引库中提取URL信息并排序展示出来。索引的英文是index。索引库是用于查找的,所以被索引的URL是能够被用户查找到的,没有被索引的URL用户在查找成果中是看不到的。
要留意的是,所谓“一个URL的信息“,并不限于蜘蛛从URL上抓取来的内容,还有来自其它来历的信息,如外部链接、链接的锚文字等。有的时分,索引库中关于这个URL的的信息,底子没有从这个URL抓取来的内容,但查找引擎知道这个URL的存在,而且有一些其它信息。
抓取和索引不是一回事。
录入是什么?
我个人觉得录入和索引没有差异。只不过录入是从查找用户视点看的,查找时能找到这个URL,便是这个URL被录入了。从查找引擎视点看,URL被录入了,也便是这个URL的信息在索引库中存在。英文并没有录入这个词,和索引证的是同一个词index。
noindex的效果是什么?
页面头信息中放上meta noindex标签是告知查找引擎不要索引这个URL,也便是用户查找时找不到这个URL的信息,这个URL不会回来在查找成果列表中。
noindex不是告知查找引擎不要抓取这个URL,实际上,noindex要起效果,这个URL是必须先被抓取的,否则查找引擎怎样看到页面HTML代码中有noindex标签呢?
robots文件的效果是什么?
robots文件是告知查找引擎,某些URL不要抓取。留意,这儿说的是不要抓取,没说不要索引。和noindex是正相反的。
nofollow的效果是什么?
给链接加上nofollow特点是告知查找引擎,不要沿着这个链接匍匐,就当这个链接不存在。留意,nofollow仅仅告知蜘蛛不要爬这个链接,没有说不要抓取链接指向的URL,也没有说不要索引链接指向的URL,nofollow既没制止抓取,也没制止索引。
概念说往后,指出几个SEO们常常弄不明白的状况:
没有被抓取的页面是能够被索引的
也便是说,蜘蛛没有拜访和抓取这个页面(比方被robots文件制止抓取),这个页面却有信息存在索引库中,用户查找时还能看到。
比方,淘宝整个网站用robots文件制止百度蜘蛛抓取,但没有用noindex制止索引(如上面说的,制止抓取后,就没办法制止索引了,不抓取,就看不到noindex标签了),所以即便百度没有拜访和抓取淘宝页面,但淘宝许多页面是被百度索引的,用户能够搜到的:
百度从网上那么多链接知道淘宝主页的存在,经过链接的锚文字也知道这个页面标题大概是淘宝之类的,当然更知道百度口碑里的点评数。所以即便百度蜘蛛没有抓取淘宝主页,用户仍是能搜到,而且显现一些百度知道的信息。
要想百度不能回来淘宝主页该怎样办呢?撤销robots文件的制止抓取,页面上用noindex制止索引。
被抓取的页面是能够不被索引的
最常见的便是上面说过的,页面头信息运用noindex制止索引,页面被抓取,读到noindex后,不被索引,不会在查找成果中回来。
还有或许是因为页面内容是抄袭、转载、低质量的,查找引擎尽管抓取了页面,索引进程中检测出这些内容问题,被丢掉,没有被索引。所以页面没有被录入,一般要先查看原始日志,看看是否被抓取过,假如被抓取过,或许是内容质量问题,假如底子没被抓取,主张先看看网站结构是否有问题。
加了nofollow的链接方针页面能够被抓取和索引
前面说了,nofollow既不制止抓取,也不制止索引。nofollow的效果是告知蜘蛛不要跟着这个链接爬,就当这个链接不存在,但nofollow只对这个链接起效果,对其他链接没效果,这个链接加了nofollow,不意味着其他当地就没有正常的指向这个URL的链接,只需其他当地呈现了没加nofollow的链接,方针URL仍是会被发现、抓取(假定没被robotx文件制止)、索引(假定没加noindex )。
声明:有的资源均来自网络转载,版权归原作者所有,如有侵犯到您的权益 请联系邮箱:123456@qq.com 我们将配合处理!
原文地址:SEO常用专业词介绍发布于2022-04-27 07:43:13