手机爬虫app推荐(图片爬虫app最新版)

通读本篇前,先接受灵魂三问:

你以为你在大众点评上找到的馆子,真的是 几百个人给了好评,然后才出现在你的推荐 里的吗?

你以为你在百度上搜索到的信息,真的是百 度想让你看到的吗?(注意体会这句话的意思,不是日常黑百度)

你以为在微博上看到的热搜话题大V互动 , 真的都是真实发生的吗?

好,我们可以开始了。

这几年,抢票软件大行其道。例如一款叫“智行火车票”的抢票软件。据说这款软件的会员是有特权的:抢到的票都会优先给会员。为什么这款软件可以随心所欲地抢票呢,难道它和铁道部门有深度合作吗?非也,它后面的运作机制是靠着无数个叫做“爬虫”的东西。

说到这,就不得不给你介绍今天的新朋友:爬虫。

手机爬虫app推荐(图片爬虫app最新版)

wait,图片错了,应该是这样的爬虫:

爬虫就是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

你可以简单地想象:每个爬虫都是你的“分身”。就像忍者用了多重影分身之术一样。

你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信息抓回来,然后排着小队等你来查阅。

抢票软件,就相当于撒出去无数个分身,每一个分身都帮助你不断刷新 12306 网站的火车余票。一旦发现有票,就马上拍下来,然后对你喊:老板快来付款。

一位黑客朋友神秘兮兮地给我发来一份《中国爬虫图鉴》,这哥们在腾讯云鼎实验室主要负责加班,顺便和同事们开发了很多黑科技。比如他们搞了一个威胁情报系统,号称能探测到全世界的“爬虫”都在做什么。

在图鉴中我仿佛看到了另一个“平行世界”:

就在我们身边的网络上,已经密密麻麻爬满了各种网络爬虫,它们善恶不同,各怀心思。而越是每个人切身利益所在的地方,就越是爬满了爬虫。

我们今天要说的, 就和这些 App 有关。

爬虫的“骚操作”

爬虫也分善恶。

像百度这样的搜索引擎爬虫,每隔几天对全网的网页扫一遍,供大家查阅,各个被扫的网站大都很开心。这种就被定义为“善意爬虫”。

但是,像抢票软件这样的爬虫,对着 12306 每秒钟恨不得刷新几万次,这种就是“恶意爬虫”。

给你看一张图:

这张图里显示的,就是世界上每个行业被爬虫“骚扰”的比例。而每一个色块背后,都是一条真实而强大的利益链条。

排名第一的是出行

爬虫的占比最高的是出行行业(约20.87%),其中,有89.02%的流量都是冲着 12306 去的。这并不意外,全国卖火车票的独此一家。

还记得当年12306 上王珞丹和白百何的“史上最坑图片验证码”吗?

你可能会说,不对吧,那我现在为什么还可以用抢票软件抢到票呢。

当然。抢票软件也不是吃素的。它们在和12306搞“对抗”。

有一种东西叫做“打码平台”,有兴趣的可以自己去查一下。

打码平台雇佣了很多大叔大妈,他们在电脑屏幕前专门帮人识别验证码。要是抢票软件遇到了验证码,就会通过网络自动把这些验证码传到大叔大妈的面前,他们人脑识别谁是白百何谁是王珞丹,标记出来,然后再把结果传回去。几秒钟就能完成破验证码的过程。

不仅如此,打码平台还有记忆功能。如果第一次已经标记了这张图是“包子”,那么下次这张图片再出现的时候,系统就会直接判断它是“包子”。

时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,大叔大妈们都可以坐在一边斗地主了。

你可能会问:为什么 12306 要防卫爬虫呢?它大方地让爬虫随意爬难道会死吗?

答:会死。

铁路看起来已经够惨了,但它还有航空这个难兄难弟。

而在航空行业里,被网络爬虫搞得最惨的不是国航,不是海航,也不是东航。而是亚航。

航空类爬虫的分布比例

可能很多人都没坐过亚洲航空。它的规模不算很大,它是一家马来西亚的廉价航空公司,航线基本都是从中国各地飞往东南亚的一些旅游景点,亚航的飞机上连矿泉水都得自费购买,是穷人、学生度假的首选。

那为什么爬虫为什么会偏爱亚航呢?因为它经常放出便宜的票。

本来,亚航的初衷只是随机会放出一些便宜的票来吸引游客购票,但这里面黄牛党嗅到了赚钱的机会。黄牛党们是这样玩的:

懂技术的黄牛们利用爬虫,不断刷新亚航的票务接口。如果出现便宜的票,马上拍下来。

亚航对网络购票的规定是,你拍下来半小时不付款票就自动回到票池。但是黄牛党们在爬虫里设好了精确的时间,一旦刚好到了半小时,又自动把票拍下来,如此循环。直到有人从黄牛党这里定了这个票,黄牛党就接着利用软件,在亚航系统里放弃这张票,然后在0.0001秒之后,就帮你用你的名字预定了这张票,这样整个赚差价的倒卖流程就实施完毕了。

排名第二的是社交

社交的爬虫的聚集地,就是大家都离不开的微博。

这里的代码其实指向了微博的一个接口。这个接口可以用来获取一个人的索引、微博列表、微博的状态等等等等。获得这些,能用来干嘛呢?

其实,僵尸粉都仅仅是爬虫的常规操作,更厉害的来了:

(以上数据不一定和现实吻合,只是展示其中的逻辑。具体操作当然会更复杂。)

还有更牛的么?当然。

你家爱豆不是经常在微博上发红包么?好的,我派十万僵尸粉去抢。

这是我凭本事抢来的红包,就问你有什么不妥吗?

排名第三的是电商

有几种东西叫做“比价平台”、“聚合电商”和“返利平台”。它们大体都是一个原理:

你搜索一样商品,这类聚合平台就会自动把各个电商的商品都放在你面前供你选择。有淘宝、京东,还有唯品会苏宁易购。

这也是爬虫的功劳。它们去淘宝、京东等平台上,把内裤袜子杜蕾斯的图片和价格统统记录下来,然后在自己这里展示。

不过,电商对抗爬虫有另外的方法,那就是“web 应用防火墙”,简称 WAF。这个我们以后再说。

那么,问题来了:

那些聚合平台,自己写爬虫程序,然后帮助淘宝京东卖货,他们怎么获利?

我随便说一下这种聚合电商平台的盈利模式:

1、假设几家店铺都卖杜蕾斯,但是用户在我这里搜索“杜蕾斯”的时候,我是有权利决定谁的店铺在前面谁在后面的啊。谁给的钱多,我就让谁在搜索的前面呗。@百度君,你说说是不是这个道理?(注意,每个店铺和淘宝平台可不是一致行动人。淘宝平台不希望自己的内容被聚合平台抓取,但每个店铺可是很乐意多一个渠道帮他们卖货的。)

3、你还可以作为中间商,收点中介费。我帮你店家卖货了,你是不是要给我意思意思。除了给我意思意思,你还得给来买东西的用户意思意思。这种套路,就是“返利网”这类平台的玩法。

接下来是O2O和搜索引擎

你还记得在开篇之前的一个问题吗?

你在大众点评上看到的信息,真是吃货们点评的吗?

答:大部分时候是,但有时候不是。

这里面的影响因素还是爬虫。这些爬虫很可能被用来做两件事:

所以我们能推测,一旦大众点评对这些爬虫的防卫出现松懈,就会出现一些不三不四的店铺被“刷”到顶部。

而爬虫针对搜索引擎的进攻也与之类似。

举个例子:

我在百度里随便搜索一个关键词。

那么这些排在前面的网址,有可能就是经过 SEO 的。不管任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就丧失了公立性。所以它们会通过不定期调整算法来对抗SEO。

尤其对于很多赌博、黄色网站,搜索引擎如果敢收广告费让他们排到前面,那就只能等着倒闭了。所以这些黄赌毒网站只能利用不正当的SEO,强行把自己的网页展示刷到前面。但一旦被搜索引擎发现,会赶紧对它们“降权”处理,让它们又乖乖回到后排去。不过这些不法网站如果能把自己刷到前几位一两个小时,赚来的钱就远远超过 SEO 的费用。

最后再说说政府部门

下面这张图,全是爬虫针对政府信息的爬取。

第二名,北京市预约挂号统一平台。这个锅,毫无疑问要号贩子来背。

那么其他的,例如法院公告、信用中国、信用安徽,为什么要爬取这些信息呢?因为当中有些重要信息,是只有政府部门才掌握的。

例如,谁被告过,哪家公司被行政处罚过,哪个人曾经进入了失信名单等等。将这些信息综合起来,可以用来做一个公司或者个人的信誉记录,供需要的人购买。

我们试着打开一下排名第四位的“信用中国”。

如果某家公司要对外做信誉库的服务,它必须先把信用中国的信息下载到自己的库里,然后才能和其他数据进行综合运算处理。

所以,信用中国这类网站大量被爬,也就很容易理解了。

不过在刚刚的表格里,排名第七的是四川住建厅。这又是什么原因?

这很可能是某些公司提供的一项“特殊服务”:

这些公司把四川各个地区的招标情况汇集起来,然后实时提醒那些房地产公司:别休息了,该起来投标了。

最后的

最后,我们来看最后一张表格。

这是受爬虫侵扰最多的 前50位排名。(采样数据,仅供参考)

这张表里,除了Youtube、谷歌、ask、亚洲航空这四家企业之外,应该全是中国企业(或机关单位)。

你看,排名第1的“中国铁路??客户服务中心”

无数的游子奋斗在一个远离家乡的城市,为了让家人有更幸福的生活。正是他们难以买到过年回家车票的事实,才把12306推上了爬虫榜的第一名。

你看,排名第8的“最高人民法院公告查询”

在我国,目前的信用体系还很不完善。骗子和老赖还可以继续蒙骗新人。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。

你看,排名第15的“??京市预约挂号统一平台”

虽然我们的医疗改革正在进行,但普通人仍然看病难、看病贵。又便宜又好的医疗资源需要争夺,所以才有了“一号难求”的现实,才有了黄牛用爬虫拼命抢号的现象。

更不用说那些神坑的虚假广告,冲榜刷量,背后都离不开爬虫的影子。

爬虫是趋利的,它们永远会向有利益的地方爬行。而爬虫觉得有利益的地方,往往是我们不忍提及的隐痛。

发表评论

登录后才能评论