文件告诉搜索引擎机器人它们可以抓取哪些 URL

bicecop126aaa · 发表于 2023-11-12 13:33:28

更重要的是，它们不能抓取哪些 URL。搜索引擎有两个主要任务：扫描网络以发现内容；索引内容，以便将其显示给寻找信息的用户。当搜索引擎机器人抓取网站时，它们会发现并跟踪链接。这个过程将他们通过数十亿个链接和网站从站点 A 带到站点 B 再到站点 C。
当到达站点时，机器人所做的第一件事就是查找 robots.txt 文件。如果他找到了它，他会电话号码数据在做其他事情之前阅读它。如果您还记得的话，文件如下所示：谷歌机器人.txt 语法非常简单。您可以通过指示机器人的用户代理（搜索引擎机器人），然后指定指令（规则）来为机器人分配规则。

您还可以使用星号字符将指令分配给任何用户代理。这意味着给定的规则适用于所有机器人，而不是特定的机器人。例如，如果您希望允许除 DuckDuckGo 之外的所有机器人抓取您的网站，则说明将如下所示不允许注意：文件提供说明，但不能强制执行。

这就像行为准则：好的机器人（如搜索引擎机器人）将遵守规则，而坏的机器人（如垃圾邮件机器人）将忽略它们。如何查找 Robots.txt 文件 robots.txt 文件托管在您的服务器上，就像您网站上的任何其他文件一样。

您可以通过键入完整的主页 URL 并附加/robots.txt来查看特定网站的 robots.txt 文件，例如。 robots.txt 网址示例注意：robots.txt 文件应始终位于您域的根目录中。因此，对点文件位于。如果您不这样做，爬虫会认为您没有。

在学习如何创建 robots.txt 文件之前，让我们先看看它包含的语法。 Robots.txt 的语法文件包含：一个或多个“指令”块（规则）；每个都有一个特定的“用户代理”（搜索引擎机器人）； “允许”或“禁止”声明。

		自动登录	找回密码
密码			立即注册