广告后台

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 960|回复: 0

文件告诉搜索引擎机器人它们可以抓取哪些 URL

[复制链接]

1

主题

1

帖子

5

积分

其他

Rank: 1

积分
5
发表于 2023-11-12 13:33:28 | 显示全部楼层 |阅读模式
更重要的是,它们不能抓取哪些 URL。 搜索引擎有两个主要任务: 扫描网络以发现内容; 索引内容,以便将其显示给寻找信息的用户。 当搜索引擎机器人抓取网站时,它们会发现并跟踪链接。这个过程将他们通过数十亿个链接和网站从站点 A 带到站点 B 再到站点 C。
当到达站点时,机器人所做的第一件事就是查找 robots.txt 文件。 如果他找到了它,他会 电话号码数据 在做其他事情之前阅读它。 如果您还记得的话,文件如下所示: 谷歌机器人.txt 语法非常简单。 您可以通过指示机器人的用户代理(搜索引擎机器人),然后指定指令(规则)来为机器人分配规则。

您还可以使用星号字符将指令分配给任何用户代理。这意味着给定的规则适用于所有机器人,而不是特定的机器人。 例如,如果您希望允许除 DuckDuckGo 之外的所有机器人抓取您的网站,则说明将如下所示不允许 注意:文件提供说明,但不能强制执行。

这就像行为准则:好的机器人(如搜索引擎机器人)将遵守规则,而坏的机器人(如垃圾邮件机器人)将忽略它们。 如何查找 Robots.txt 文件 robots.txt 文件托管在您的服务器上,就像您网站上的任何其他文件一样。



您可以通过键入完整的主页 URL 并附加/robots.txt来查看特定网站的 robots.txt 文件,例如。 robots.txt 网址示例 注意:robots.txt 文件应始终位于您域的根目录中。因此,对点文件位于。如果您不这样做,爬虫会认为您没有。

在学习如何创建 robots.txt 文件之前,让我们先看看它包含的语法。 Robots.txt 的语法 文件包含: 一个或多个“指令”块(规则); 每个都有一个特定的“用户代理”(搜索引擎机器人); “允许”或“禁止”声明。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|五常同城 ( 黑ICP备19004948号-4 )

GMT+8, 2024-10-18 20:25 , Processed in 0.050067 second(s), 22 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表