发布到Ben Finklea的博客2020年7月30日

如何解决Drupal默认Robots.txt文件的问题

吸烟破碎的机器人本文最初写于2010年9月17日,但已经更新了当前的信息和SEO最佳实践。

人无完人。Drupal robots.txt文件也不是。事实上,这个文件有几个问题。如果你使用谷歌网站管理员工具的robots.txt测试工具逐行测试你默认的robots.txt文件,你会发现很多看起来被阻塞的路径实际上是被爬行的。

原因是Drupal不需要路径后面的斜杠(/)来显示内容。因为robots.txt文件的解析方式,Googlebot会避开有斜杠的页面,但抓取没有斜杠的页面。例如:/ admin /被列为禁止。正如您所期望的那样,测试实用程序显示https://www.yourDrupalsite.com/admin/无效。

不是那么快。

投放https://www.yourdrupalsite.com/admin.(没有斜线),你会看到它是允许的。“这是一个陷阱!”不是真的,但幸运的是,它相对容易解决。

你想知道如何用10个简单的步骤解决Drupal默认的robots.txt文件的问题吗?请继续读下去。

谷歌机器人到底是什么东西?谷歌机器人

嗯?谷歌什么? !广告的!

谷歌和其他搜索引擎使用服务器系统(通常称为蜘蛛、爬虫或机器人)在互联网上搜索并找到每一个网站。谷歌的系统也被称为谷歌将其与所有其他搜索引擎机器人区分开来。

谷歌没有透露每周爬行的网站,它们的整体搜索索引包含数十亿的网页,并且超过100米GB - 这是2016年的信息。他们从那时起他们没有发布任何信息;毫无疑问,现在那些统计数据要高得多。

“这就像一本书背面的索引 - 在我们索引的每个网页上看到的每个单词都有一个条目。当我们索引网页时,我们将它添加到其中包含的所有单词的条目。”

修复Drupal Robots.txt文件修复坏掉的robots.txt文件

如前所述,修复Drupal的默认robots.txt文件相对容易。执行以下步骤来修复文件:

  1. 制作robots.txt文件的备份。
  2. 打开robots.txt文件进行编辑。如果需要,下载文件并在本地文本编辑器中打开它。
  3. 找到路径(干净的url)部分和路径(没有干净的url)部分。注意,无论您是否打开了干净的url,这两个部分都会出现。Drupal可以为您提供两种方式。它们看起来像这样,尽管你的可能会略有不同:

    # path(干净的url)
    禁止:/ admin /
    不允许:/ /回复/发表评论
    禁止:/联系/
    禁止:/注销/
    不允许:/ /添加/节点
    不允许:/搜索/
    不允许:/ user /注册/
    不允许:/ /用户/密码
    不允许:/ user /登录/

    #路径(没有干净的URL)
    禁止:/?q = admin /
    禁止:/?q =评论/回复/
    不允许:/ ? q =联系/
    禁止:/?q =注销/
    不允许:/ ? q =节点/添加/
    禁止:/?q =搜索/
    禁止:/?q =用户/密码/
    禁止:/?q =用户/注册/
    不允许:/ ? q =用户/登录/

  4. 复制这两个部分(简单地复制和粘贴它们),这样你就有了四个部分:两个“# Paths(干净的url)”部分和两个“# Paths(没有干净的url)”部分。
  5. 添加'固定!'对新部分的评论使您可以分开。
  6. 在固定的情况下删除尾随/尾随行!部分。您应该最终有四个如下所示:

    # path(干净的url)
    禁止:/ admin /
    不允许:/ /回复/发表评论
    禁止:/联系/
    禁止:/注销/
    不允许:/ /添加/节点
    不允许:/搜索/
    不允许:/ user /注册/
    不允许:/ /用户/密码
    不允许:/ user /登录/

    #路径(没有干净的URL)
    禁止:/?q = admin /
    禁止:/?q =评论/回复/
    不允许:/ ? q =联系/
    禁止:/?q =注销/
    不允许:/ ? q =节点/添加/
    禁止:/?q =搜索/
    禁止:/?q =用户/密码/
    禁止:/?q =用户/注册/
    不允许:/ ? q =用户/登录/

    #路径(清洁URL) - 修复!
    不允许:/管理
    禁止:/评论/回复
    禁止:/联系
    禁止:/注销
    禁止:/ node /添加
    禁止:/搜索
    禁止:/用户/注册
    禁止:/用户/密码
    禁止:/用户/登录

    #路径(无干净的URL) - 修复!
    不允许:/ ? q = admin
    不允许:/ ? q = /答复置评
    禁止:/?q =联系
    禁止:/?q =注销
    不允许:/ ? q =节点/添加
    不允许:/ ? q =搜索
    不允许:/ ? q =用户/密码
    禁止:/?q =用户/注册
    禁止:/?q =用户/登录


    注意:我们建议确保所有页面都不以列表中列出的任何路径开头#路径(清洁URL) - 修复!部分,否则你将冒他们没有被爬行或索引的风险。

    也就是说,如果你命名了一个页面
    https:// < yourdrupalwebsite.com > / search-engines-do-the-darndest-things,搜索引擎可能不会爬网或索引该页面,因为它匹配其中一个不允许的路径模式。

    然而,如果您已经有几个/许多页面匹配这些模式中的任何一个,那么最好从
    #路径(清洁URL) - 修复!您的robots.txt文件的一部分。

  7. 将路径添加到您的网站的位置。有些网站只有.xml网站地图,其他网站只有.xml和.html网站地图。如果您有两者,请包括两者。使用以下格式,确保使用您的网站的规范站点名称:

    网站地图:https://www.yourdrupalsite.com/sitemap.xml.
    网站地图:https://www.yourDrupalsite.com/sitemap


    如果您的网站地图不在这些位置,则可能希望更改URL,因此任何搜索引擎机器人都知道在哪里找到爬行目的。

  8. 保存robots.txt文件,必要时上传它,替换现有文件(您备份了它,不是吗?)
  9. https://www.yourdrupalsite.com/robots.txt.并仔细检查您的更改是否有效。您可能需要在浏览器上刷新以查看更改。
  10. 现在,robots.txt文件应该按照预期工作了。

你可以为SEO做额外的改变

drupal robot.txt文件的搜索引擎优化现在您已经修复了默认的robots.txt文件,还可以进行一些额外的更改。通过使用指令和模式匹配命令,robots.txt文件可以从爬虫程序中排除整个站点的部分,如管理页面,某些单独的文件,如cron。php和一些目录,比如/脚本/模块

但是,在许多情况下,您应该调整robots.txt文件以获得最佳的SEO结果。在某些情况下,你可以对该文件进行一些修改,以满足你的需求:

  • 你正在开发一个新网站,你不希望它出现在任何搜索引擎中,直到你准备好启动它。添加不允许: *用户代理:。只要确保在网站上线后将其更改回来,否则你的网站将永远不会被抓取。徳赢电子游戏
  • 您正在运行的服务器非常慢,您不希望爬虫程序使您的站点为访问者减慢您的站点。将爬行延迟从10调整到20。
  • 如果您在超快速服务器上(并且您应该是,对),您可以告诉机器人带它!将爬行延迟更改为5甚至1秒。密切监视您的服务器几天以确保它可以处理额外的负载。
  • 您正在运行一个网站,允许人们上传自己的图像,但您不一定希望这些图像在Google中显示。在robots.txt文件的底部添加这些行:

    用户代理:Googlebot-Image
    不允许:/ * . jpg $
    禁止:/*.gif

    不允许:/ *使用美元

    但是,如果所有文件都在/ files /用户/图像/目录中,您可以执行此操作:

    用户代理:Googlebot-Image
    不允许:/ /用户/图片/文件
  • 假设你在你的服务器中注意到日志中有一个坏机器人在那里刮掉了所有内容。您可以尝试通过将其添加到robots.txt文件的底部来防止此操作:

    用户代理:坏机器人
    不允许: *

如果已安装XML SiteMap模块,那么您已收到一个很棒的工具,您应该向所有搜索引擎发送到所有搜索引擎。但是,要向每个引擎的网站上传您的URL是繁琐的。相反,您可以在robots.txt文件中添加一些简单的线条。

更多关于robots.txt和Drupal SEO的信息,请查看我的书:Drupal 8 SEO