认识爬虫:在 python 爬虫过程中做一个正人君子?了解一下 robots.txt 文件吧?

发布于 2021-04-09 03:04


点击上方“蓝字”,设为星标。


什么是 robots.txt 文件?


网络爬虫程序在执行时,首先应该检查站点根目录是否存在 robots.txt 文件。当这个文本文件存在时应该按照它的规则来爬取执行相应的内容,也就是爬取站点开放范围内的内容。当然,如果说你的站点不想被任何形式的爬虫、这个时候搜索引擎也是不能收录你站点的内容的,搜索引擎不进行收录时网站的 SEO 优化也会受到影响。
robots.txt 文件防君子、不防小人。大多时候,robots.txt 文件的校验都被忽略了,最好在进行网络爬虫之前检验 robots.txt 文件是否存在,并且按照文件中定义的规则来检验爬虫的范围。


robots.txt 文件的定义规则是什么?


robots.txt 文件主要有 User-agent、Allow、Disallow 几个关键字来定义规则,User-agent 一般指的是对用户身份的限制,Allow、Disallow 主要是允许/拒绝访问 URL 地址。


  • 实例一


1# 允许所有的 robot 进行访问
2
3User-agent: * 
4
5Allow: /

  • 实例二


1#拒绝所有的 robot 进行访问
2
3User-agent: *
4
5Disallow: /

  • 实例三


1#拒绝所有的 robot 访问某个目录
2
3User-agent: *
4
5Disallow: /user/load/data

  • 实例四


1#允许所有的 robot 访问特定的目录
2
3User-agent: *
4
5Allow: /user/load
6
7Allow: /user/excel

  • 实例五


1#拒绝所有的 robot 访问某个目录下面 html 结尾的文件
2
3User-agent: *
4
5Disallow: /api/*.html

  • 实例六


1#仅允许所有用户访问 .jsp 结尾的文件
2
3User-agent: *
4
5Allow: .jsp$
6
7Disallow: /

在实际应用中可以根据具体站点的需求任意组合这三个关键字的使用,完成对爬虫规则范围的配置。


● 爬虫实战:python 扩展库 urllib2 应用之如何自定义电影类型爬取豆瓣电影数据?


● 爬虫实战:urllib2 应用之如何实现对某贴吧数据针对爬取、并完成实现代码封装?

● 认识爬虫:优秀的爬虫利器,pyquery 框架爬虫到底有多简洁?

● 认识爬虫:提取网站 cookie 信息,并使用 cookie 信息实现登录

● 认识爬虫:python 网页解析器,掌握第三方 lxml 扩展库与 xpath 的使用方法?

● 认识爬虫:User-Agent 是什么,如何使用 fake_useragent 扩展库随机生成各种 UA?

● 认识爬虫:怎么使用代理 IP 规避反爬虫以及使用爬虫获取更多可用的免费代理 IP?

● 认识爬虫:如何使用 requests 模块根据电影类型爬取豆瓣电影排名前20的信息与评分

● 认识爬虫:如何使用 requests 模块模拟浏览器请求爬取网页信息?

● 认识爬虫:beautifulsoup4 库如何使用三种方式提取 html 网页元素?

长按二维码关注,领取更多编程资料



Python 集中营

分享编程技术、还原编程思想



原创技术|编程实战|学习社区


创作不易,点赞、分享支持一下 ~

相关资源