18720358503 在线客服 人才招聘 返回顶部
企业动态 技术分享 行业动态

严禁检索模块收录网站內容的几种方式

2021-02-22分享 "> 对不起,没有下一图集了!">

第1种、robots.txt方式

检索模块默认设置的遵循robots.txt协议书,建立robots.txt文字文档放至网站根文件目录下,编写编码以下:

User-agent: *
Disallow: /

根据以上编码,便可告知检索模块不必抓取采用收录本网站,留意慎用如上编码:这将严禁全部检索模块浏览网站的任何一部分。

怎样只严禁百度搜索检索模块收录抓取网页页面

1、编写robots.txt文档,设计方案标识为:

User-agent: Baiduspider
Disallow: /

以上robots文档将完成严禁全部来自百度搜索的抓取。

这里说1下百度搜索的user-agent,Baiduspider的user-agent是甚么?
百度搜索各个商品应用不一样的user-agent:
商品名字 对应user-agent
无线网络检索 Baiduspider
照片检索 Baiduspider-image
视頻检索 Baiduspider-video
新闻检索 Baiduspider-news
百度搜索搜藏 Baiduspider-favo
百度搜索同盟 Baiduspider-cpro
商务检索 Baiduspider-ads
网页页面和别的检索 Baiduspider

你能够依据各商品不一样的user-agent设定不一样的抓取标准,下列robots完成严禁全部来自百度搜索的抓取但容许照片检索抓取/image/文件目录:
User-agent: Baiduspider
Disallow: /

User-agent: Baiduspider-image
Allow: /image/

请留意:Baiduspider-cpro和Baiduspider-ads抓取的网页页面其实不会建入数据库索引,只是实行与顾客承诺的实际操作,因此不遵循robots协议书,这个就必须和百度搜索的人联络才可以处理了。

怎样只严禁Google检索模块收录抓取网页页面,方式以下:

编写robots.txt文档,设计方案标识为:

User-agent: googlebot
Disallow: /

编写robots.txt文档

检索模块默认设置的遵循robots.txt协议书

robots.txt文档放在网站根文件目录下。

举例来讲,当检索模块浏览1个网站时,最先会查验该网站根文件目录中是不是存在robots.txt这个文档,假如检索模块寻找这个文档,它就会依据这个文档里的內容,来明确它抓取的管理权限的范畴。

User-agent:
该项的值用于叙述检索模块robot的姓名,在”robots.txt”文档中,假如有好几条User-agent纪录表明有好几个robot会遭受该协议书的限定,对该文档来讲,最少要有1条User-agent纪录。假如该项的值设为*,则该协议书对任何设备人均合理,在”robots.txt”文档中,”User-agent:*”这样的纪录只能有1条。

Disallow:
该项的值用于叙述不期待被浏览到的1个URL,这个URL能够是1条详细的相对路径,还可以是一部分的,任缘何Disallow开始的URL均不容易被robot浏览到。比如”Disallow:/help”对/help.html 和/help/index.html都不容许检索模块浏览,而”Disallow:/help/”则容许robot浏览/help.html,而不可以浏览/help/index.html。任何1条Disallow纪录为空,表明该网站的全部一部分都容许被浏览,在”/robots.txt”文档中,最少要有1条Disallow纪录。假如”/robots.txt”是1个空文档,则针对全部的检索模块robot,该网站全是对外开放的。


下面举几个robots.txt用法的事例:

User-agent: *
Disallow: /

严禁全部检索模块浏览网站的全部一部分

User-agent: Baiduspider
Disallow: /

严禁百度搜索收录全站
User-agent: Googlebot
Disallow: /

严禁Google收录全站

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
严禁除Google外的1切检索模块收录全站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
严禁除百度搜索外的1切检索模块收录全站

User-agent: *
Disallow: /css/
Disallow: /admin/
严禁全部检索模块浏览某个文件目录
(比如严禁根文件目录下的admin和css)

第2种、网页页面编码方式


在网站主页编码<head>与</head>之间,添加<meta name="robots" content="noarchive">编码,此标识严禁检索模块抓取网站并显示信息网页页面快照。
在网站主页编码<head>与</head>之间,添加<meta name="Baiduspider" content="noarchive">便可严禁百度搜索检索模块抓取网站并显示信息网页页面快照。
在网站主页编码<head>与</head>之间,添加<meta name="googlebot" content="noarchive">便可严禁谷歌检索模块抓取网站并显示信息网页页面快照。

此外当大家的要求很奇异的情况下,例如下面这几种状况:

1. 网站早已加了robots.txt,还能在百度搜索检索出来?

由于检索模块数据库索引数据信息库的升级必须時间。尽管Baiduspider早已终止浏览您网站上的网页页面,但百度搜索检索模块数据信息库中早已创建的网页页面数据库索引信息内容,将会必须数月時间才会消除。此外也请查验您的robots配备是不是正确。假如您的回绝被收录要求十分迫切,还可以根据投诉服务平台意见反馈恳求解决。

2. 期待网站內容被百度搜索数据库索引但不被储存快照,我该如何做?

Baiduspider遵循互联网技术meta robots协议书。您能够运用网页页面meta的设定,使百度搜索显示信息只对该网页页面建数据库索引,但其实不在检索結果中显示信息该网页页面的快照。和robots的升级1样,由于检索模块数据库索引数据信息库的升级必须時间,因此尽管您早已在网页页面中根据meta严禁了百度搜索在检索結果中显示信息该网页页面的快照,但百度搜索检索模块数据信息库中假如早已创建了网页页面数据库索引信息内容,将会必须2至4周才会线上上起效。

期待被百度搜索数据库索引,可是不储存网站快照,以下编码处理:

<meta name="Baiduspider" content="noarchive">
假如要严禁全部的检索模块储存你网页页面的快照,那末编码便是下面的:
<meta name="robots" content="noarchive">

常见的1些编码组成:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:能够抓取本页,并且能够顺着本页再次数据库索引其他连接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不准抓取本页,可是能够顺着本页抓取数据库索引其他连接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:能够抓取本页,可是不准顺着本页抓取数据库索引其他连接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不准抓取本页,也不准顺着本页抓取数据库索引其他连接

"> 对不起,没有下一图集了!">
在线咨询