很多年前,要让您的网站被搜索引擎收录,您需要填写表格、注册网站并手动编辑您希望网站被收录的关键词。随着搜索引擎网络爬虫或蜘蛛的出现,这个过程发生了改变。
网络爬虫是自动化程序,它们沿着从一个网页到另一个网页的链接在互联网上爬行,对内容进行索引并将其添加到数据库。这意味着,只要您的网站有搜索引擎已知的其他网站的链接,它就会随着时间的推移找到您。链接到您的网站的网站越多,这种情况发生的速度就越快。
不幸的是,这些爬虫可能会成为您网站的密集访问者。这是因为它们会加载每个页面和文件以将其编入数据库。爬虫可能会给您的 VPS 造成高负载,并可能给访问者带来问题。为了帮助解决这些负载问题,有一种标准化的方法来控制这些爬虫的行为,即在您网站的根目录中放置一个名为 robots.txt 的文件。但是,没有什么强制遵守这个文件。因此,虽然大多数网络搜索引擎爬虫都会遵守它,但有些爬虫可能不会。
robots.txt 文件具有特定格式。请参阅以下示例:
User-agent:googlebot
Disallow:/images
Allow:/images/metadata
crawl-delay:2
sitemap:/sitemap.xml
您可以根据自己想要控制爬虫程序访问您网站的方式,在 robots.txt 中填写任意数量的用户代理部分。最好先为所有爬虫程序设置一个用户代理部分,然后在发现特定爬虫程序会给您的网站带来问题时,为其添加单独的部分。创建 robots.txt 后,最好对其进行测试,以确保其有效。如果语法中存在拼写错误或错误,则可能导致爬虫程序忽略您为其设置的规则。幸运的是,有许多工具可用于测试它,Google 等主要搜索引擎也提供了测试工具。