你可能不知道自己的手机里装的app的工作方式

  • 作者:凡心
  • 网络营销
  • 2019-04-25
  • 人已阅读
简介觉得自己在口碑美食上点的外卖,真的是好几百人点了品尝了之后给的好评,然后出现在了你的首页推荐里吗?感兴趣就上车吧!
觉得自己在口碑美食上点的外卖,真的是好几百人点了品尝了之后给的好评,然后出现在了你的首页推荐里吗?
认为自己在自带浏览器或百度搜索的信息,真的是他们想让你看到的吗?
觉得在今日头条看到的热搜话题,真的都是真实发生的吗?

感兴趣的话,就上车吧!
 
马上到五一了,出游的小伙伴又多了起来,每到这个时候,中老年同志都会感到自己的无奈,那是因为,旅游的火车票又要开抢了。这时,大家都拿出了自己的抢票法宝,各种各样的抢票软件如雨后春笋拔地而起,注册的小伙伴冲会员,是买票会员有特权:哪怕只剩一张票,也会优先(很多小伙伴的自我认识)。
从技术层面上来讲,抢票法宝不是软件,而是软件背后神秘大黑手,它的名字叫做“爬虫”。
说道这里,来了解一下今天正题关键词:爬虫。

抱歉,图片显示错误,爬虫应该是这样的:
 
那么什么是爬虫呢?
其实哪爬虫就是一个网络探测机器,他的主要任务就是模拟人(管理人员)的行为去各个网站溜达,看看你的摆摊地点是否合格,食品是否达标,把看到的数据信息做记录带回来,因为像虫子一样不知疲倦的爬来爬去,所以被冠以“爬虫”的称谓。
我们每天使用的搜索工具(百度、淘宝)都是利用了这种爬虫技术:每天放出来无数个爬虫到各个站点,然后检查他们的页面质量,框架信息,内容价值等,完事之后在推送给你或者你搜索时出现在你的面前。
而上面讲的抢票法宝,就是放出的爬虫,每一个不同的爬虫不断的帮助你刷新火车票的余票,一旦你发现了有余票,就会第一时间抓取信息,然后来对你说:svip大佬,您的特权已生效,请土豪尽快付款。
之前在群里看到有大佬发布有关爬虫的文章,心里感触良多,昨天晚上就遇到了这样的事情,当时我还在压马路,我们老大看到了360的搜索主页有相关推送,然后就问我为什么有同行品牌,别人的公司名称为什么就排在我们公司的前面,这个时候,我想郁闷的小伙伴不止我一个吧,郁闷什么呢?郁闷我的银子(单价:两)没人家的金子(单价:两)好使,郁闷的就是相关推荐里面不仅仅什么都把自己公司的品牌推送在第一位。如果下次你的老板看到,你就可以推送他这篇文章,以示清白~~~
 
通过这些问题,我反而看到了另一个“平行世界”:
其实在我们身边的世界里,因为网络的的广泛传播,已经布满了各种网络爬虫,它们有神魔之分,各怀其心,越是涉及到人身利益的地方,爬虫的存在也就越多。
今天要讲的,也是与这些app有关
  • 爬虫的“神魔论”
像百度这样的爬虫(机器模拟器),每天对着全网的页面筛扫,然后供给给大家,各个被筛扫的站点也很开心,这样的被称之为“神”。
但是像抢票软件这类的爬虫,每秒恨不得把12306揉上几亿次。别说12306了,给谁谁都不开心,这种称之为“魔”。你问我为什么?抢票的时候你没抢到,被扫描的网站觉得不开森,那它就是魔。
  1. 排名app之出行排行
为什么要讲出行呢?因为出行行业中爬虫的占比最高。在出行的爬虫中,有80%的流量都是冲着12306去的。不要问我为什么,因为全中国买火车票的12306好像还没开分号。
那么史上最大的坑就此来临,还记得12306的图片验证码吗?很多人在买票的时候觉得这是故意为难老实人,其实不然,它是为了阻止爬虫(抢票法宝)的点击。
因为爬虫不认识谁是徐蔡坤、谁是邓论,只会简单的机械点击,所以他们很多都会被拒之门外。
或许你会说,怎么可能,我不是用抢票法宝抢到了吗?
当然,上有政策下有对策吗?有利益的事谁不喜欢干,所以总是在较劲。
没错。抢票软件也不是吃素的。它们在和铁总搞“对抗”。
我不知道你们有木有人知道“打码平台”,感兴趣的可以看看,有很多的蜀黍阿姨都在打码平台上工作,做什么工作咧!趴在电脑屏幕前专门帮人识别验证码,抢票软件遇到了验证码,系统就会自动的把这些验证码推送到蜀黍阿姨面前,由他们手动来选择徐蔡坤和邓论,然后在把结果传输回去,整个过程也就几秒钟的时间。
为了提高工作效率,这些打码平台还有记忆功能,如果蜀黍阿姨标记了这张图是“徐蔡坤”,那么下次这张图出现系统就会直接判定它是“徐蔡坤”,日积月累,12306里的图片就被标记完了,等到机器都能识别,那么蜀黍阿姨就可以在旁边支张桌子打麻将了。(抱歉没找到脸盲图,随便用个凑数,见谅)
 
或许有很多小伙伴会问:让爬虫爬爬怎么了,能死还是怎么滴?
答案就是:会死。
你知道每年旅游高峰期,12306被点成了什么样吗?根据数据显示:“12306最高峰时1天页面浏览上千亿次,自己算算平均一秒被点击多万次吧。”而这样的数据还是加上了验证码之后的,可想一下被拦截的爬虫还有多少?
还有如果我们都使用抢票法宝来抢票,那么对于我们父母长辈哪些不会抢票的人来说,会不会是一种不公呢?
铁路北爬虫搞的民不聊生,但是他还有一个
铁路被爬虫“点鸡”成这样已经够惨了,但它还有个同胞难弟,就是航空。
而航空里,被搞得最惨的不是国航,不是海航,也不是东航。而是亚航。
 
或许很多人都没做过亚航,这是马来西亚的一家廉价航空公司,航线是中国-东南亚旅游胜地,在飞机上连买瓶矿泉水都需要自掏腰包,是穷屌丝装x度假的首选哦。
为啥子爬虫青睐于亚航呢?因为便宜,讲具体点,九四因为它经常出便宜的票。
不过亚航的初中可不是这样的,本来只是随机放出一些便宜的票来吸引游客,但四黄牛哥觉得利益可观,所以下手了。
找了一下他们玩的知识点:
搞技术的小黄牛们先是利用爬虫,不断滴刷新亚航的票务接口,一旦有便宜的票出现,不管三七二十一先拿下再说。
亚航没办法了,只好给出规则:拿下票半小时不付款票就自动回到票池,可以重新卖了,但四小黄牛们有自己的办法,他们给爬虫写好精确的时间,到了制定的时间,又会去把票提出来,循环至此,直到有人卖了为止。
现在你知道“中间商赚的差价在哪里了吗?”这样的神魔论有木有刷新你的出行观念。

2、排名app之社交

“两位一抖”是现在的主流平台,现在就来讲讲小伙伴们喜闻乐见的微博吧
你好,你的图片已发送:
 
你没看懂什么意思?其实这是代码指向微博的一个接口。有什么用?可以用来获取你的微博状态、索引你要的关键词信息等等。获得这些能有什么骚操作呢?
具体的我就不讲了,你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么,前几天比较红火的事,想必各位小伙伴都有刷到吧!“鸡你太美”的撞死人就是这样引发了一波流量海啸。
其实这没什么大惊小怪的,僵尸粉只能算是爬虫的常规操作,想要更骚的请补票上车:
1、我是微博小白,不会写东西,也没有什么其他能令人关注的点,我给自己做了100万僵尸粉,然后一大群僵尸在我的微博下面点赞评论,其乐融融。
2、我找到了一个游戏商,跟他讲:你看我是人气大v,这么多的粉丝,每天有这么多人给我留言转发,你在我这里打广告,有人在我这里注册你的游戏,你就给我1元钱,游戏商听了觉得不错,就这么办。
3、我推广了游戏商的链接,结果没有一个人点击~
4、没事。砸不是还有100万爬虫吗,让它们去点击注册,完成人工所需的工作
5、我那,卧在躺椅上,品着我的白开水,看着注册成功的转账信息。
(以上的数据不一定百分百吻合,只是一个逻辑,具体的操作或许会更加复杂)
这你都难以置信,来个更骚的操作,前段时间小王同志为庆祝自己的战队夺冠,发了很多福利,好的,我率领我的100万僵尸去抢。。。
 
3、排名app之电商
不知道小伙伴们自己在买东西的时候遇到这种情况,有一种平台,它们把你们需要的东西统统拔下来,然后在自己这里做展示。不管你说淘宝、京东还是苏宁。
其实这都是爬虫的功劳,原理和百度差不多,只不过它们展示的是商品并非网页信息,但是你要是把这些东西放在一起比价,我想不管是线上线下那个商家都不乐意吧!
由于机器人模拟的是人的点击,电商类的很难阻止这一类的事情发生,讲到这里有的小伙伴就问了,真滴笨,可以和12306学习嘛,对不起,这件事我想你自己都接受不了,为啥子呢?你想想看,如果你每点开一个商品,淘宝就让你先找找谁是徐蔡坤、谁是邓论,我估计你没啥心情剁手了,剁马云的心情倒是有可能滴。
讲了这么多,这个平台是什么呢?仔细回忆一下,你平常是不是遇到过“返利平台”、“聚合电商”等等,其实它们大多数都是一个原理。
那么,这些猖獗的爬虫就没有什么办法处理了吗?答案是:“web应用防火墙”,简称WAF,有兴趣的可以去翻翻相关资料。
讲到这里有的小伙伴又开始发牢骚了,哪些平台是傻子吗?还是闲的木有事情做,自己写爬虫,然后帮助这些电商平台卖东西。我只能说,你的思维,限制了你的想象,一起来看看他们的盈利模式吧:
 
1、如果你看到了几家店买运动鞋,但是用户在这里搜索“运动鞋”的时候,我是有权利决定谁前谁后的,谁给我的钱多,我就让它在搜索的时候展现在前面,百度君的竞价模式可以了解一哈,你说什么?放在淘宝上买不就行了嘛,那是淘宝的意愿,你要能在多个平台上买东西,你会不乐意吗?这就和你在线下开分店一毛一样。
2、要是你觉得搞竞价排名狼心疼,那你就做做信息流广告吧,现在的信息流也是一个很大的趋势,比如:今日、百度等。在网页上展现自己,放飞自我,有相关用户看到会访问你的的站点,点击一次,你的到账信息就会增加数字。
3、当然了,做这些事,是少不了中间商的,收点辛苦费(中介费),我帮你卖货了,你是不是需要意思一下,除了给我意思,是不是还要给你的客户意思,这样的套路,也是返利网的玩法。
 

4、O2O和搜索引擎

嗨!还记得上车的时候和你提过的百度搜索吗?
你在百度所搜索的内容,真的是你认为自己想要的内容吗?
答:大多时候或许是,但有时候不是。
原因还是爬虫
为什么还是爬虫呢?因为这是爬虫对搜索引擎发起了攻击。
你可能知道搜索引擎决定了那个站点排名靠前,那个排名靠后,最主要的一个问题还是看点击量。
那么,我就拍出我的爬虫,搜索一个特定的“关键词”,然后拼命滴点击这个要提升排名的站点(讲的有点粗,需要的请自行补习),那么这个站点在搜索引擎的地位就会自然而然滴就上来咯,这个东西叫奈斯一欧。
打个比方,随意滴搜一个词吧!
拍在前面的网站,就很有可能是经过料奈斯一欧的,但是作为搜索引擎,四不会允许外人对自己的搜索结果来指手画脚滴,否则就没有了公立性,所以就产生了“算法”,如百度的绿萝算法、烽火算法,360的哪吒算法、悟空算法(创始人小时候西游记中毒),只能通过这些调整来削弱奈斯一欧的排名结果。
为什么要这样呢?你在搜索引擎上搜索一些违禁词试试就知道了,尤其是黄赌毒,要是那个搜索引擎敢把这些用竞价做排名做上来,那就等着关门吧!所以黄赌毒网站只能利用黑色的奈斯一欧来强行刷自己的排名了,直到被搜索引擎发现,赶紧处理掉,为什么你不知道有黑色奈斯一欧的存在,那是你不了解它的价值,如果能把这些黄赌毒网站刷到首页几个小时,赚来的钱就是其他的好多倍了。
这里也就说明了一句话“何以解忧唯有暴富”,对,要的就是搜索用户的心理结果来赚钱。

二、爬虫的得与失

讲了这么多的废话,我想你的疑问有点多了。
你会问:爬虫这么搞不算违法吗?
关于这个问题嘛!其实我在《网络安全法》里面看了好久,确实木有发现有“爬虫爬取网络公开信息认为违法”的条例。
但是我发现了几条司法解释:
未经授权爬取用户手机通讯录超过50条记录;
未经授权抓取用户淘宝交易记录超过500条;
未经授权读取用户运营商网站通话记录超过500条;
未经授权读取用户公积金社保记录的超过50000条的。
以上这些情况可以入刑。
其实你仔细看,如果只是用机器代替人的手敲击鼠标键盘,接触的是公开信息,也不算是触犯司法解释吧。(当然,这是我的个人观点,不代表官方意见)
你会问:爬虫这样搞到底谁厉害?
随着技术的提升,爬虫和被爬虫的越来越势不两立。
讲白了还是利益问题,当然是不是你死就是我活。
比如麻花藤老弟的WAF,听说通过人工智能的方法来识别爬虫,赶快帮他们打广告,还有很多的云产品厂商,也都开始主推反爬虫技术,无利不起早。这样的鬼东西就和疾病一个样,而且是利益越大越难治的那种。

做个总结吧!凡事都有两面性,技术的得与失,还是要看我们自己如何去运用,抱怨不会提高自我的生活价值,我觉得自己的世界,套用伟人的一句话“自己动手,丰衣足食”。

上一篇:微博怎样运营才能提高阅读,不妨试试这几点

下一篇:返回列表

文章评论

共有条评论来说两句吧...

用户名:

验证码:

Top'); })();