• Robots.txt在项目中的运用


    在开发公司一个项目的过程中,有这样一个需求

    该网站上面有一个search功能,可以search该网站上的任何包括特定内容的网页

    现在有一个需求,就是针对几个特定的页面,我们希望网站上的search功能查找不到它们,同时呢,还需要搜索引擎(比如 google, bing等)无法搜索到这几个页面

    关于网站上自带的search功能查找不到这几个网页,在后台使用C#代码就可以实现

    而如何来确保搜索引擎(eg: google, bing等)无法搜索到这几个页面,如何实现呢

    我采取的是使用Robots.txt来实现

    Robots.txt原来的内容如下:

    User-agent: *
    Sitemap: https://mysite.com/sitemap.xml

    这个表示任何搜索引擎,抓取工具的用户代理都可以访问这个网站的所有页面资源. 网站的地图文件位于 https://mysite.com/sitemap.xml

    假设我们需要针对搜索引擎屏蔽的文件如下:  
    https://mysite.com/mytest1

    https://mysite.com/mytest2
    https://mysite.com/mytest3

    那么,我们需要修改Robots.txt文件如下
    User-agent: *
    Sitemap: https://mysite.com/sitemap.xml
    disallow: /mytest1
    disallow: /mytest2
    disallow: /mytest3

    这样,就可以确保这三个页面不被任何搜索引擎抓取





  • 相关阅读:
    Quora 用了哪些技术(转)
    Instagram的技术探索2(转)
    Sharding & IDs at Instagram(转)
    2010“架构师接龙”问答--杨卫华VS赵劼(转)
    架构师接龙 汇总(转)
    如何成为一名软件架构师(转)
    网站架构资料集(转)
    技术好重要吗?
    洞洞那么大-悲伤那么小
    教你玩转XSS漏洞
  • 原文地址:https://www.cnblogs.com/wphl-27/p/9705357.html
Copyright © 2020-2023  润新知