python爬虫是什么意思(简单好玩的编程代码)

一、什么是Python,从何而来、能做什么?

Python是一种计算机语言,顾名思义它是一种语言,是计算机能懂的语言。就像人类语言一样,用文字、字母、单词组合而成。人类语言有很多种,比如英语、中文,但是表达的意思都是一样。而计算机语言用比如类名、函数名、变量名等,它可以随你去定义,就如同生活中一个词的意思你可以找另一个词代替。但是计算机语言也是规范的,它只能按照规定的规则去写,这有利于其他人去读懂和修改。和人类语言一样,计算机语言也有很多种,例如:C语言,C ,C#,Java,VB, JavaScript ,PHP等。Python就是其中的一种,它是后起之秀。

众所周知,计算机编程语言发展经历了如下三个阶段

01机器语言02

汇编语言

03

高级语言

python爬虫是什么意思(简单好玩的编程代码)计算机语言三个阶段

2021年8月编程语言排行榜

如上可见Python依然排名数一数二的,可见它的火热程度。

好了,现在就给大家来聊聊python,首先“Python”这个词到底怎么发音?

是 皮绳 ?还是排通?额,实际上,它的英式发音接近于“派森”,美式发音接近于“派杉”。

这个英文单词的原意是“蟒蛇”或“巫师”。正如Python的logo一样,像2条蟒蛇盘在一起。

它的创造者是荷兰的Guido van Rossum(吉多·范罗苏姆),热爱Python语言的粉丝亲切地称呼他为“龟叔”(听说越是牛×的人往往都不修边幅)。

Python之父龟叔

话说,1989年圣诞节,龟叔在阿姆斯特丹的家里闲得无聊。为了打发时间,他决定开发一种新的编程语言。于是,就创造了Python。(IT宅男的世界,一般人无法理解)

人生苦短,我用python,翻译自”Life is short, you need Python”

Python这个命名,取自他喜欢看的英国肥皂剧《Monty Python》(飞行马戏团)。

Python语言诞生之后,其实很长一段时间的发展都只能说是不愠不火。

1991

第一个用C语言实现的Python编译器诞生。

1994

Python 1.0诞生。

2000

Python 2.0 出世,加入了内存回收机制,构成了现在Python语言框架的基础。

2004

大名鼎鼎的WEB框架 Django 诞生。

2008

Python 3.0发布。Python进入3时代。

2014

官方宣布版本2将停止更新。

2021

截止到2021年8月,最新版本是v 3.9。

从2015年后,随着人工智能、大数据、科学计算、物联网等领域的兴起,Python随之火热起来,成为流行的编程语言之一。

人机大战!

2017年5月,由Python编程的“阿尔法狗”(AlphaGo)打败柯洁,一时间Python“咸鱼翻身”,更被赞誉为“世界上最美的编程语言”。

2017年年底,浙江省信息技术课程改革方案正式出台,“从 2018 同年起浙江省信息技术教材编程语言将会从 VB 更换为 Python。”

同年教育部将Python 加入全国计算机等级考试,于次年3月实行。

其实不止浙江,教育大省北京和山东也确定要把 Python 编程基础纳入信息技术课程和高考的内容体系,山东省小学信息技术教科书里也新增Python的课程。

三、Python应用

1. Web开发

随着Python的Web开发框架逐渐成熟,比如耳熟能详的Django和flask, 你可以快速地开发功能强大的Web应用。许多大型网站就是用Python开发的。

国内:豆瓣、搜狐、金山、腾讯、盛大、网易、百度、阿里、淘宝、热酷、土豆、新浪、果壳…

国外:谷歌、NASA、YouTube、Facebook、工业光魔、红帽…

2. 网络爬虫

Python拥有强大的类库,一个小白用几行代码就可以写个爬虫去爬段子爬网站了。然而爬虫的真正作用是从网络上获取有用的数据或信息,来做数据分析,这可以节省大量人工时间。能够编写网络爬虫的编程语言有不少比如C、C 、Java都可以做爬虫,但Python绝对是其中的主流之一。Python自带的urllib库,第三方的requests库和Scrappy框架让开发爬虫变得非常容易。

3. 计算与数据分析

随着NumPy,SciPy,Matplotlib等众多程序库的开发和完善,Python越来越适合于做科学计算和数据分析了。它不仅支持各种数学运算,还可以绘制高质量的2D和3D图像。和科学计算领域最流行的商业软件Matlab相比,Python比Matlab所采用的脚本语言的应用范围更广泛,可以处理更多类型的文件和数据。

4. 人工智能

当前最热工资最高的IT工作就是从事人工智能领域的工程师了。Python在人工智能大范畴领域内的机器学习、神经网络、深度学习等方面都是主流的编程语言,得到广泛的支持和应用。最流行的神经网络框架如Facebook的PyTorch和Google的TensorFlow都采用了Python语言。你不学Python, 你会用那些框架吗?

5. 自动化运维

这几乎是Python应用的自留地,作为运维工程师首选的编程语言。在很多操作系统里,Python是标准的系统组件。大多数Linux发行版和MacOSX都集成了Python,可以在终端下直接运行Python。Python标准库包含了多个调用操作系统功能的库。通过pywin32这个第三方软件包,Python能够访问Windows的COM服务及其它WindowsAPI。使用IronPython,Python程序能够直接调用.NetFramework。一般说来,Python编写的系统管理脚本在可读性、性能、代码重用度、扩展性几方面都优于普通的shell脚本。

6.云计算

Python的最强大之处在于模块化和灵活性,而构建云计算的平台的IasS服务的OpenStack就是采用Python编写的,云计算的其他服务也都是在IasS服务之上的。

7. 网络编程

Python提供了丰富的模块支持sockets编程,能方便快速地开发分布式应用程序。很多大规模软件开发计划例如Zope,Mnet, BitTorrent和Google都在广泛地使用它。

8. 游戏开发

很多游戏使用C 编写图形显示等高性能模块,而使用Python或者Lua编写游戏的逻辑、服务器。相较于Python,Lua的功能更简单、体积更小,然而Python则支持更多的特性和数据类型。Python的PyGame库也可用于直接开发一些简单游戏。

Python迅速走红的原因其实是多方面的,主要是以下几点:

1. 容易上手,实现同样功能Python代码量更少,非常适合编程初学者作为启蒙的语言。

2. 语法简洁易懂,有点类似英语的表达。我认为,这是未来所有编程语言的雏形。

3. Python还有个昵称,叫“胶水语言”,是说Python可以很方便地调用别的语言(如C 、Java)编写的功能模块,将他们有机结合在一起形成更高效的新程序。

4. 丰富、强大的库支持是Python的坚强后盾。

……

Python到底有多简单?我们通过实现打印“Hello World!”,对几个编程语言做个简单的比较:

首先是C 的实现代码(能看懂不?):

起到打印作用的是第4行代码。

然后是Java,好像也不大容易理解:

真正起打印作用的是第3行代码。

最后,再看看我们Python的表现:

一行代码,简洁明了直奔主题。搞掂!

体会到Python语言的魅力吧?它让以前高高在上的计算机编程语言走入寻常百姓家,没有受过专业训练的普通人也可以体验一把码农的快感!

不过,看上去简单的Python,并没有想象得那么容易学习。如果没有任何计算机基础的小白,需要的学习时间要更长。

说白了,Python入门容易,但是精通难。

哦,对了,提到Pyhton,就不得不介绍一下,什么是“爬虫”。

爬虫介绍很多人以为Python就是爬虫,爬虫就是Python。其实,虽然两者的发音有点接近,但是它们并不是同一样东西。

爬虫,即网络爬虫(Web Crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的计算机程序。可以理解为一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛。如果它遇到资源,那么它就会抓取下来。具体抓取什么,由你来决定。

简单来说,Python是一个程序开发语言,而爬虫是开发出来的工具(Python是其中一种),去“爬”资源,就是一种行为。

既然是行为那就有好有坏,对于非法坏的爬虫获取信息行为我们国家有没有法律明文规定呢?我们来了解一下非法侵入计算机信息系统罪:

第二百八十五条 非法侵入计算机信息系统罪:违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

《网络安全法》第四十四条 任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此,如果爬虫在未经用户同意的情况下大量抓取用户的个人信息,则有可能构成非法收集个人信息的违法行为。

我们可以看到重点信息:入侵计算机获取数据是违法的,也就是说爬虫技术本身是无罪的,因为它是获取的公开信息,并未非法入侵计算机。但是如果你用爬取到的数据去从事商业化操作,那也许就构成了违法犯罪行为!爬虫带来的官司更是数不胜数(有兴趣可以搜下),所以说网络绝不是法外之地。

为什么要爬虫

当然是为了提升自己的物质生活或者精神生活。现在经常听到大数据时代,数据就是 Money ,很少存在数据共享的,这个时候,那我们就得自己靠本事找数据。搜寻数据这个过程其实并不想象中的难,每个领域的人都可以利用该技术得到自己想要的。

1、如果你是一个 房地产销售

2、如果你是一个 股民

3、如果你是一个 币圈爱好者

利用各个交易所对比特币价格不一致,通过在两个交易所进行买卖赚差价(当然比特币交易手续费还是挺高的,在这里只讲原理,因为原理是可以行的通的)。

爬虫案例既然爬虫是大量抓取网页,那是不是爬虫都是不好的呢?答案当然不是,可以说我们的日常上网已经离不开爬虫了,为什么这么说?下面我就为大家盘点几个爬虫日常应用:搜索引擎:如Google、百度、雅虎、搜狗、必应等等很多搜索引擎其本质就是一个(可能多个)巨大爬虫,这些搜索引擎工作原理是:页面收录->页面分析->页面排序->响应关键字查询,也就是说它会先把互联网上很多页面保存到服务器,然后分析网页内容建立关键字索引,最后用户输入关键字的时候去查询内容,然后根据相关性排序(百度害人的竞价排名毫无相关性可言),第一步的页面收录就是爬虫,百度查看一个网站有多少网页被收录方法,百度输入:site:你想查询的网站,如:site:blog.csdn.net

抢票软件:很多人在吐槽12306卡,可你不知道12306几乎每天都相当于淘宝双11的流量,这谁受得了。为什么每天都是如此高的流量?答案自然是爬虫了,为什么抢票软件可以抢票?因为它在不断的刷新和监控是否有余票,只要一有余票系统便会秒抢,大大小小这么多抢票app,访问量之高可想而知。之前很多公司都出过抢票插件,如:百度、360、金山、搜狗等等,后来都被铁道部约谈下线了,而现在又流行抢票app,为什么抢票app可以,插件就不可以?可能是因为管理和可控性的原因。

惠惠购物助手:这是一款能进行多个网站比价并能知道最低价的一个网站,其工作原理也是通过大量爬虫爬取商品价格然后存储,这样就可以制作一个价格走势图,帮助你了解商品最低价。

爬虫带来的价值从上面举的几个例子来看,爬虫对整个互联网的价值真的无法估量,那对于小我而言,爬虫能给我们带来哪些价值?1.隐形的翅膀

如果你问我学完Python基础之后该学习什么技能?我会毫不犹疑的说爬虫,为什么是爬虫?

爬虫相对其他技能简单易学,且效果立即可见,会有一定的成就感。

在国内,很多企业巴不得你啥都会,所以在应聘时,爬虫会是一个不错的加分项。

2.看不见的商战

职场对话:

老板:小明给你个重要任务。小明:就算996我也在所不辞(第一次接到老板的直接需求)!老板:你能不能搞到竞争对手的商品价格?小明:没问题(牛逼先吹出去),小事!老板:这可不是小事,只要你能持续获取竞品价格,我们就可以标价低于他们一点点,持续如此大家就知道我们的价格肯定是比他们低,这样大家就直接来我们这里购买商品了,到时候庆功宴上你就是最大功臣(先画个饼)。小明:老板牛逼,老板英明!

总结:

在这个信息爆炸的时代,谁掌握了更多有效数据,谁定天下之大局。但是获取数据应该是取之有道,人间正道是沧桑。

爬虫应用领域:https://zhuanlan.zhihu.com/p/45698546

[2]

[3]

爬虫的实现以及价值(CSDN):https://blog.csdn.net/wxx1471181824/article/details/105463524/

END

博客网站:mefj.com.cn知识创造价值

发表评论

登录后才能评论