Python3爬虫入门教程 | 第一课 认识爬虫&安装Python3环境


2020年4月3日 15:00 阅读 750 评论 0 爬虫教程

今天开始Python爬虫的第一课,在开始之前我们首先需要知道爬虫是什么,爬虫能干什么。

来自百度百科的解释:

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通俗来讲,假如你需要互联网上的某些信息,如商品价格,图片视频资源等,但你又不可能一个一个打开网页来收集,这时候你就需要写一个程序,让这个程序按照你指定好的规则去互联网上收集信息,这便是爬虫,我们熟知的百度,谷歌等搜索引擎其实也是一个巨大的爬虫。

爬虫合法吗?

可能很多爬虫初学者都会有这个疑问,首先爬虫是一门技术,技术应该是中立的,合不合法其实取决于你的使用方向。是由爬虫的缔造者来决定的,而不是爬虫来决定的。另外我们爬取信息的时候也不能无限制的去爬,疯狂请求别人的网站,这样是不行的,只要能拿到自己想要的信息就可以了。 一般来说只要不影响被爬网站的正常运转,也不是出于商业目的,一般也就只会封下IP,账号之类的,不至于陷入律师函警告的风险。

大部分网站在网站的根目录下会有个robots.txt的文件,里面写明了网站里面哪些内容可以抓取,哪些不允许。 搜索引擎的爬虫自然就会遵循这个robots协议,不去爬里面不让爬的目录以及文件,我们自然也要遵循,比如我博客的robots文件如下:

robots文件

文件里指明了本站的sitemap路径方便搜索引擎去爬取,下面一行,代表允许所有搜索引擎爬取,并且不限制爬取的目录

当然robots协议本身也只是一个业内的约定,是不具有法律意义的,所以遵不遵守呢也只能取决于爬虫缔造者自身了。

这里爬虫就介绍完了,下面我们进入正题

Why Python?

很多人提到爬虫就会想到Python,其实除了Python,其他的语言诸如C++, PHP,Java等等都可以写爬虫,而且从执行效率来说这些语言都比Python要高,但为什么Python渐渐成为了很多人写爬虫的第一选择?简单来说有以下几点:

  • 1、开发效率高,代码简洁,一行代码就可完成请求,几十行就可以完成一个复杂的爬虫任务;

  • 爬虫对于代码执行效率要求不高,网站的响应速度才是最影响爬虫效率的。比如请求一个网页可能需要100ms,数据处理10ms还是1ms对于爬取速度来说影响不大;

  • Python有很多超级好用的第三方库,如请求网页的requests,解析网页提取信息的beautifulsoup、lxml、re,selenium等等;

本教程后续会以Python作为基础来进行讲解。

今天第一课先教大家安装Python环境

以windows为例,首先打开python官网

robots文件

选择版本

选择下载

下载可能会很慢,耐心等待

下载完后双击安装,一路next即可,但是有一点需要注意,务必勾选 Add Python 3.x to path, 否则后续会很麻烦,得自己配置环境变量

勾选path

安装完成后,win+r打开cmd然后键入python --version即可验证是否安装成功

验证安装

至于Linux安装可以参考我之前的文章:centos7安装Python3.7

最后在刚才cmd中输入python,然后按照惯例,我们键入:

print("Hello World!") 

Hello World

下节课我们来说Python的基础语法

最后修改于2020年4月3日 15:00
©允许规范转载

版权声明:如无特殊说明,文章均为本站原创,转载请注明出处

本文链接:https://www.yyqblog.com/article/29.html

微信
支付宝
提交数据中...