社交网络分析与挖掘(社交网络所有知识点解读)-众学网

2014年10月15日，以“阿里与复杂·前沿与应用”为主题的第一届阿里巴巴复杂科学前沿论坛在杭州阿里巴巴西溪园区隆重开幕。以下是道同资本创始人王煜全的发言。

不过现实还是要从理想说起，【理想】经常都会和一些时髦的东西沾边，就像10年前无线热的时候，我就在做无线。【其实我们所说的大数据，就是公众数据分析，拥有最大的公众行为数据的公司就是中国移动】。我发现问题都是一样的，历史就是不断的重演，当时中国移动碰到的问题跟今天我们做大数据碰到的问题一模一样，因为能够对用户的行为做很细跟踪和分析了，以前做不到的现在能做到了，那么我们就有了一个理想，就是我们对一个用户的理解比用户自己都深入，他自己都不知道他的需求是什么，我们能告诉他有这样的需求，让他恍然大悟，我果然想要这个。

移动当时就是这样的梦想，但是很快大家知道这个梦想不真实。不是因为技术做不到，而是因为这些数据根本没有整合。我给大家举个例子，大家学市场【营销】或者说企业经营的时候一定会读故过一本书，叫《引爆流行》，我们现在做市场不是靠过去的八十二十法则了，不是20%的人贡献80%的收益，现在是社会化时代，我们人群当中有高影响力人群，这些人只占整个人群的1%，但如果能让这1%的人说你的好话，剩下的99%都会跟随，都会来买你的东西。

既然确实有这些人存在，如果能利用好这些人的话，假如中移动把这些人哄的开心了，他们天天说中国移动好，移动每年给中央电视台多少亿的广告费都可以省了。进而，还可以再从这1%里面挑出他联系的150个人每个人都和150以上的人有联系的，也就是高端中的高端，这样的人你抓住一个，第一轮他就能够影响150人，第二轮这150个人再影响150个，可见影响力有多么巨大。但这个只是我们当初的设想，因为当时我是用了很多关系来挖数据、做分析的，真到中国移动去实施这个系统的时候，遭到了他们中移动后台运营者的抵制，说我不可能为了你的一个应用而改变我的整个数据结构。

其实做大数据也好，数据挖掘也好，最核心的是对潜在用户的理解，这个都是依靠数据整合的。过去我们就是看这个用户到底想说什么，做什么，你对这个用户的理解。我们当初提了一个方案，建议说我们应该去收集异地开关机的数据，如果你在本地关机了，过一阵再打开如果是异地这个就叫异地开关机，如果你现在在杭州关机，然后你在北京开了机，这个数据我就要收集了，为什么？很显然你不可能像哈利波特一样一下子就飞过去了，你肯定是用某种交通工具过去的，而去我可以知道你在什么时间用什么工具过去的。

当然问题还是在于中国移动的体制问题，后台部门会说，我为什么因为你前台部门想出成绩而来改变我这个部门的设计结构呢。其实在类似事情也同样存在于其它公司，我们当时在产业里面做演讲比较多，多年以后我在一个互联网公司内部做讲座，又讲到这个事，结果下来以后他们公司的一个员工跟我谈，他说我们当初试过了，我们发现我们公司里有这个数据，就做了一个提案报上去，想用这个数据做差旅项目，结果被另一个部门否定了，这个部门说什么呢，他说涉及到个人隐私和信息安全了。

个人隐私这个问题看似严重，但往往拥有大数据的都是大公司，大公司对数据的态度很有趣，没人在乎的时候他们也不在乎，但大数据热了，他们不知道能拿大数据做什么，却知道把着自己的数据不放，不和别人共享。比如说新浪微博没热的时候，利用新浪数据做分析、做业务还比较方便，一热了以后，他们自己也意识到了这个数据是好的，不能让人家用，所以现在大家都知道在新浪上爬数据越来越难。为什么，你天天喊大数据重要，现在所有的公司的老总都被灌输了数据重要，而且我自己是一个大平台，我的数据自己用，如果我不给别人你是拿不走的，这样变成什么情况？就跟当初中国移动一模一样。这个是我们家的自留地，如果这个数据大家都帮着开放，很多应用就出来了，但是如果我不交给你们，我虽然搞不出来，但是你也肯定搞不出来。

所以大数据一点都不开放，公众还天天担心隐私问题，他都不开放你还担心什么隐私啊，所以我不认为数据隐私是最大的问题，我觉得不开放才是最大的问题。另外还有我们的防骚扰的力度不大，目前发现精准营销远不如骚扰营销来的有效而且更低成本。如果你是做公司短信批量购买的话，一条短信成本3分钱，意味如果覆盖100个人，我的成本才3块钱，但是我要精准营销打动这1个人，这100人里假设有一个目标，我要精准营销打中他，3块钱绝对不止。那我这样还不如全都覆盖得了，因为打动这个一个人得罪了另外99个人，那就是反正那个99个不是我的客户，而且又不很多。这样的话谁还会去做精准营销，所以我有很多做精准营销很棒的企业、研究人员，但是活得很艰难，为什么呢，因为没有需求。所以不要以为说数据整合理解就好了，我们为客户提供服务就好了，现实不是这样的。

我们天天讲大数据的思维，甚至上升到思想的高度。在这里我想提"海妖服务器"，我们老说互联网好，但是不好的地方是什么，就是人人知道大数据很强、很重要、很有用，所以人人都做，但是做到最后就变成一个像核武器的竞赛，这个大数据是不是对用户有好处可能就慢慢的觉得不重要了。有一个很著名的笑话,在森林里面两个人碰到了一个熊，一个人拼命的跑，另一个蹲下来系鞋带。那个人就问你跑得比熊还快吗，这个系鞋带人就说我的目的是超过你。所以你发现没有，现在最热的高频交易导致很多在整个市场上没有任何负面的消息情况下，股市会出现大幅度波动，他们会大量的抛售或者买进，为什么？因为他们盯的目标并不是市场，而是盯着别人的服务器，你的服务器如果有波动，他就把这个波动加倍了再还回来，所以你看市场的波动其实跟市场本身没有关系，你发现是这两个人在互相比赛，至于熊在哪儿根本不重要。

所以这种情况下，会造成一个CEO对大数据产生非常复杂的心情，就是我不得不上，因为我不上了别人上了我就会处于劣势，但是上的也不见得有优势，甚至是没有优势，而且大数据的成本是很高的，变成了一个很大的负担。至于说有多少人真正利用好大数据做了更加理性的决策，坦白讲真的没看到多少。

包括我们自己，我原来做研究出身的，市场分析，当时我们做市场咨询的时候，最恨的就是客户对我们不理解，你看这个市场决策者对市场这么不了解，我给你提供了这么多复杂的信息，你千万不能在没看清这个市场的情况下做决策，那样简直太不负责了；可是现在这几年我转行做投资，当我做了投资之后我也经常对市场数据不屑一顾。最近我们想投一个美国非常棒的能源企业，很多数据证明他的经营情况不是很好，但是我不是很相信，因为我们都知道大数据在整个趋势出现拐点的时候，是没有办法去预测未来的，而所有的企业如果是匀速增长的话，一定长不太大，就像阿里一样，回顾这十几年艰苦创业过程一定不是每年晋升30%，一定在某个时间点实现了爆发性增长，而这个时点是没有办法预测到的。那我根据什么预测，其实很简单，这个CEO是个连续创业者，他前面创了两个公司，但是他还愿意创第三个公司，说明他觉得这个业务机会非常棒，另外一个创始人是MIT的教授，他把教授辞了，到这个公司做CTO，说明他对自己的技术非常的有信心，要不然就可以直接挂个首席科学家，不需要跳槽做CTO的。所以基于这两个人这样的背景，他们决定要联手做一个事情，肯定能做好的。因为今天财务很差，明天可能就到了拐点。所以你会看到说我们在现实生活中如果我们只是根据一些数据做决策的话，你永远是个参谋。

再说一个很著名的笑话，有一个在岁数大了准备谈恋爱了，准备选女朋友了，因为身价巨富所以有权力去挑选别人，然后若干个女孩来应征，有一个女孩特别会照顾家，有一个女孩特别会做饭，有一个女孩特别会理财，他做了综合评价了以后选了胸最大的一个，所以大家发现了没有，其实我们做半天大数据分析，综合评价了以后，决策者还是用自己的规律做的决定。

回到大数据上来，移动业务走下坡路以后，社交网络热起来了，这个理想就更高大上了，因为移动的业务还只是对个人进行持续的数据跟踪、分析、积累来确定这个人到底是什么特征，有什么需求。社会化就不一样了，可以从A了解B的需求，我们基于新浪数据做了很多的实验，一些初步实验也验证了，就是你的一度强关系对你的影响能够达到50%，因此可以把你的某些特性50%赋予到你的一度强关系身上，比如说你喜欢某种音乐，你的一度强关系有50%的可能性喜欢这种音乐。50%影响力的规律能够在社交网络里做大范围的应用，可以弥补传统的个人数据跟踪分析的样本不够的问题。因为在传统分析里，一个人没有某种行为就没法分析他的特征和喜好，而利用影响力法则，知道这个人的一度强关系的行为或特征，就可以给这个人打上50%可能性的标签了。

为了更深入地研究社交网络，我们还在网络上做了很多社会实验，当然我们只能做小范围的事情，一到大范围，没有新浪的支持，数据和实验需要的支持就都跟不上了。社会网络上的行为本质上还是真实社会行为的反应，所以我们还对社会做跟踪分析，希望把社会行为放到社交网络里来研究，其中有一个角度就是从线上数据分析个人行为，看是否能够体现线下看到的行为规律，每个人都是有身份地位的，而社会地位可以换来某种利益，根据传统的行为学研究，性别不同，社会地位换取的利益是不同的，对于一个女性而言，如果她的社会地位较高，利益就是她会认识更多的同样社会地位比较高的人，往往是岁数比较大的男性，但是对于男性来说不是这样的，一个社会地位高的男性，其利益不是认识更多的社会地位也高的女性，而是更多漂亮、年轻的女性。当然，我们只是做了小范围的验证，还没有办法做大范围、全网的验证。

另外，传统社会学研究发现，如果一个人更友善、更乐于助人，那么这个人在社交圈子里面容易处于中心地位，因为他会有更多的连接；如果一个人容易对别人产生敌对情绪，就会因为冲突多而丢掉很多现有连接，从而处于社交网络的边缘。我们想在社交网络上验证这个理论，首先要确定网络上一个人到底是更友善还是更敌对，因为你直接观测是测不到的，所以我们用了一个办法去替换，就是分析他的微博里面的话的褒义词跟贬义词分别是多少，根据国外的分析，在英文字典里面褒义词和贬义词的比例大约是1：2，字典收录的褒义词少贬义词多。我们都知道语言是用来对别人的，贬义词更多，可见我们多数时间是批评别人更多。但是字典是死的，每个人发的微博却是活的。我们确实发现微博里面连接越多的人，他的褒义词使用的比例就越高，我不知道因果关系，但我们知道是有相关性的，就是你的社会地位高低和你说话的友善与否是有相关性的。我们当时还想要再继续做研究，又提出问题：假设一个人他在网络当中没有处于核心结点，在边缘结点的时候，他就经常说褒义词，经过一段时间，他能否慢慢的变成核心结点？假如不管一个小结点说了褒义词还是贬义词，他未来都不能变成核心结点没有相关性，就说明不是因为你更友善所以进入到了核心结点，而是因为你在核心结点，所以你说话被迫友善。可惜缺少新浪的支持，没法在全网铺开做这个实验。

《大数据时代》说简单的数据比复杂的算法对我们有用的多，我很认同。很多时候我们过度强调算法了，但是算法远没有比我们想的重要，因为多数人没有办法进入拥有数据的公司，所以没有办法解读，而公司拥有这些人不放心让你解读，我宁留着所以没有办法。

我们都知道开普勒发现行星的运行规律之前，是丹麦天文学家第谷把所有的行星运行数据收集了起来，开普勒只是基于这些数据做了一个解读，就此产生了我们对宇宙的第一次清晰的基于现代物理学的研究。

大数据我们知道原来只能做观测，现在已经进化了到了实验阶段，最著名的就是社交网络上的实验，比如Dancon Wattz做的给音乐网站里的音乐做排名的“平行世界”实验。但是我后来回头想好像不对，后来我看了一下历史，原来开普勒拿到第谷的数据也是偷来的，我觉得历史又在重演了，所以今天你要说科学家要得到开普勒那样的成绩，你还得从像第谷这样的方法把数据偷来，如果拿不来数据怎么研究。当然还有人说我们有数据可以研究，比如说我们拜访了另外一个人叫彭特兰教授，我看他写的书《社会物理学》，我就感觉回到了20年前上大学的时候，上大学的时候我们大四学细胞生物学，是一个非常复杂的科学，有无数的实验，但是你发现什么问题呢，基本上一堆事实的罗列而对整体的规律列不出来。所以你会发现我们可以做很多这样的实验，我们在这个学校里做这个实验是这样的，但是在另外一个学校做这个实验是不是这样的呢就不知道，很多结果是冲突的，大一统的系统理论还很远。

最后，对于做数据的人，第一不要看轻自己，未来你是企业成功的必要条件；第二个也别高看自己，光有我们不行，我们要把自己整合到整个生态环境当中去，这样才能够大家都共同发展，谢谢。

阿里研究院www.aliresearch.com

阿里研究，洞察数据，共创新知。