以下是零点研究咨询集团董事长袁岳在数据师行业峰会上的演讲内容
大数据的场子可以容纳很多人,像刚才谢教授一样,他是非常值得尊敬的学者,他参加活动的地方我都去参加活动。大数据既是一个科学,它同时是一个艺术,我重点是代表艺术那个方面的。为什么呢?因为我从初中开始,数理化很少超过60分的。等到我上大学的时候,走一个狗屎运考了84,一直是文科,法律是本科,法律是我的研究生,博士的时候是社会学,后来学管理,主要是公共管理,还不是工商管理的,所以我基本的特点是典型的文科男。但是我对数据会有自己的感觉,而且很大程度上,我今天思路的出发点不是从大规模数据的拥有者的前提出发谈这个问题。
今天讲到大数据的时候,其实有两组人:一组人,是拥有非常大的数据来源,无论是国家统计局,无论是阿里巴巴,无论是京东,它们有很大的数据来源;还有一部分人拥有强大的数据开发能力,比如英特尔、IBM等等。这两组人结合在一起玩儿大数据,玩大的,其实大数据最大的一个问题,就是很多学了大数据,想用大数据,或者受益大数据的人,在大数据的世界里你所得到的是一些大数据的可能的结果,或者说数据运算以后的东西,绝大多数情况你没有机会接触到数据源,甚至你也没有能力或者资源充分的应用数据工具,这就产生了一个巨大的大数据鸿沟。大数据鸿沟是在未来DT时代一个最重要的,就像我们以前说的财富鸿沟,大数据鸿沟是区分企业之间,包括个人之间区别的一个很重要的东西。而且在大数据中间我们很多人是应用了大数据的结果,请注意大数据本身是可以操纵的。也就是说,我运算出来一个大数据,因为里无法接触数据源和大规模应用核心的大数据,所以你只是接受了一个结果,只是人们用了大数据的结果,所以你在用的过程中本身就可以被操纵了。
所以作为一个做民意研究出身的专业人士,我们有一个重要的,实际上我们用的数据只能是大数据源,就好像你用阿里巴巴数据,其实不能直接给你用的,无论你是学者或者什么,用的机会非常少。所以我们在过去的这么多年来一直在探讨,就是如何我们可以使用上,可以慢慢的增大的数据。
今天我们所说的大部分数据是大数据来源整合的大数据,而我们致力于要解决的,如果没有大数据,如何能够有较大的数据。比如过去,我在国家部委给领导当文秘的,我给领导写报告,广大群众一致认为,这句话就跟大数据一样。我们会问领导,一个人没问过,怎么叫一致认为呢。领导说,不用问,我们代表他们。同样的道理,我们为什么做民意调查,或者做社会调查,它的特点是挨个搜集极微小的数据,累积一定规模量的数据。
这个小的数据建立在单个人意见的行为,但是累积更多的数据库分析的时候,它就比单个的数据库更大,所以在这个意义上来说数据大小不是一个绝对的概念。就像阿里巴巴平台上所有的数据,但是它不能跟京东的平台数据简单的整合分析。所以阿里巴巴数据可以看做是一个单一数据,所以这方面来讲是一个小数据。就像国家统计局说我的数据是准的,有的学者说不准,统计局说你拿一套给我看,没有。所以在这个意义上来说,大的国家统计的数据在单一来源上说它也相当于是一个小数据,因为没有多元可印证的数据来源。明白了这一点,我个人认为大数据在今天多元数据的意义重于数量意义上的大!
明白了这点之后,我们来探讨,数据的广或者说我们今天大部分说的数据,其实中国银行过去有很多数据,但是中国银行的信用数据你能随便调用吗,只有中国人民银行能调用;阿里巴巴能调用人民银行的数据,人民银行调用阿里巴巴的数据吗,都不行。所以我们看起来有很多个人很大的孤岛,所以数据不连接的意义上,你称其为大,就会导致在孤岛意义上的大。所以孤岛意义上的大,在大数据的视野中是小的,所以这是我给大家的第一个核心要强调的概念。
所以在这个意义上来说打破数据库的,比如说在每个公司里,像万科够大,它是在住宅房地产中间最大的公司,但是万科如果到某一个分公司会发现,它的分公司的数据都是互相不互通的,像销售数据和物业管理部门的数据,和它财务掌握的相关的业务数据,它们数据互相之间是不连通的。也就是说,万科本来是一个单一数据源在一个单一数据源里面它的数据本身都还是一个信息孤岛。所以我们会看到信息孤岛现象很严重,你说政府数据不公开,你到政府里面发现发改委不知道人事部的数据,人事部不知道发改委的数据,其实这两个部委之间互相是孤岛。
我们说发改委,发改委重大项目办的数据和下面另一个部门之间的数据也是不共享的,所以在小孤岛里还有微孤岛,所以整体的就是一个看起来表面上是一个挺大的数据源,其实这个数据源很关键的时候只是满足,领导比如说,我们总理说,你多长时间把这个数据整合出来,它很快的整合出来解决了这个问题。这就是我们常规运行的时候,这个孤岛的状态比我们想象的严重、普遍和广泛的多。所以在这个意义上来说,我们今天站在一个非常现实的推动数据工程前进的角度来说,打破孤岛,孤岛是这个工作的一个很重要的组成部分。
我们现在讲的所谓的孤岛,是从大的角度来说,我们现在有很多的,比如有信用数据,有销售数据,像我们合作做的,几乎所有的电商平台,只要能够呈现在页面上的数据,我们全部能够抓取。但是抓取的全是前台数据,只要是后台的,关于支付的数据,在后台的服务数据,你就很难抓取,因为后台你不能简单说它不能呈现出来。所以前台获得的数据意味着我获得了跨平台的数据,但是后台的拿不到,某种意义上我只有一部分数据,而没有全面的数据。
阿里巴巴提出来说你用我们的数据,你就可以知道什么东西好卖,所以你的研发和产品等等可以往这个方面努力,故事真的是这样吗?不是的。因为阿里巴巴只有单一来源的数据,而且这个单一来源数据有一个很重要的特性,就是今天在淘宝和天猫上卖的绝大部分是传统化产品,这个按照雷军的说法,如果今天非常好符合互联网时代的,符合互联网眼光消费者的产品,它的特点是什么,消费者会尖叫。所谓尖叫的意思是说你的行为痕迹,和你的行为趋向表现出你好像有往那个方面要东西的倾向的时候,有人把握你这个倾向,把这个产品做出来了,你说噢,已经有了,这个时候你会尖叫。但是你在淘宝待半天,你不叫,为啥?因为都是你看过的。
所以我们今天最重要的问题是,如果你在一个平台上,这个平台本身拥有的东西并不是人们的理想的选择,它反映的是人们无奈的选择,所以无奈的大数据本身不能供应理想。就像说在黑暗的旧社会里,自然的产生共产主义,十月革命才送来了什么什么。就是人们真正理想的东西不止是在黑暗摸索出来的大数据,我们的大数据是如此之大,以至于像黑暗本身一样。所以你有那么多统计学数据,有那么多淘宝数据,它依然代表着黑暗,只是大而已。所以在这个地方大数据本身获得光明,数据的特性和数据交互中间给我们提供的缝隙,就像我们在黄山看到一线天,它不是大数据,是小空间,但是它是代表光明的。
这意味着我们看到的这些巨大的数据中间,我们在寻找中间的一线天,而且有些数据本身还不是由大数据本身提供的,就像我刚才说大数据表现人们多么的无奈,但是很可能那道光线是由设计师和在黑暗中间摸索的这些消费者的交互中间产生的,这就是小米提供的MIUI系统说,如果能让铁杆粉丝,发烧友跟我们参与互动的话,我们在互动中间发现了怎样产生一个人大家满意的产品的方式。其实之前小米并没有大数据。当然有大数据更好,因为把你那线光明在黑暗的阴沉中显得多么的更加的夺目的光明。我说的这个不像谢教授,这是不是更像艺术青年说的,所以叫大数据艺术。
但是这个问题在于什么?有的时候光明不是只有一线天,有一线天就简单了,问题是有的时候有八线天,这些进来哪个是合适的?所以这个时候大数据,如果把数据充分整合的情况下,它帮助我们在判断方向和特性的时候,有相当的帮助,这就是为什么对今天来说,做一个大数据非常认真的工作就是认真的积累小数据,它来自不同的地方,它可能来自无论坛,可能来自于专项调查,可能来自于用户的投诉,可能来自于扒取某方面的数据。所以多元数据的观念,让我们知道说任何一个个体,我们在生活中任何一个个体,你甚至去了很多不同的互联网的终端,你在不同的地方,都可以累积不同的信息。有的地方,比如有的人只去一个地方,有的人去了三个地方,但是有些人从来不累积,从来不用大数据方式进行整合,所以即使很小的东西,当你每次累积,随着数据量扩大大数据累积,尤其数据能贯通的话,就为你提供看见一线天不同的方法。
我们零点做了23年的调查公司,我们从累积的角度来说,我们差不多有20万个不同的项目。当我们把这些不同的调查项目的数据,比如说汽车的研究、内裤的研究这好像没有什么关系。你发现在十年前,你在五年前,再到现在你发现穿什么内裤跟开什么车有密切的关系,就是生活方式改变了,在贫困和物质缺乏的时代,人们选择东西是凑合的,生活是各种凑合的堆积。在理想化的时代,生活方式他们是一致的。你看一个人开吉普车和穿内裤有相同的价值观,这里面有内在的关联性。
那个时候他们觉得我们做所有的调查是在不同方面的,但是你可以拼接出来不同的生活方式的图景将是什么样的。这是我们建立新数据立方的系统,不断的贯穿比如说啤酒、健康、家庭理财,我们发现不同的人群生活方式和他匹配的价值观模式都有差别。从而对我们对他们提供不同的产品研发和新产品前进的思路,以及寻找可以整合合作的差异化的品牌、差异化领域的合作伙伴提供了很强的依据。
站在我们的角度是这样的,我们回到一个企业的时候,一个企业里面有很多数据。我觉得不同的部门也有不同的数据,这些数据基于过去保密的原因和工作的原因形成孤岛,我们现在的工作就是把孤岛打穿,把这些小的孤岛之间再打穿变成一个中型的大数据,我们把这样的数据叫做中数据工程。其实大家对做中数据是一件非常重要的事情,我们零点做了数据立方以后,我就具有筹码我们存在数据交换的机会。如果你没有任何的数据资源,我们要用你的数据,除非有一些学者因为公益的原因,在大部分情况下如果你没有真正可消化的数据资源,你可能就没有机会来使用。
所以今天我们站在个体中间普通拥有的中数据,我们可以用来数据交易和数据合作的前提和基础,这也是我们非常重要的工作。我们零点除了用大数据之外,还帮助客户打产微和小的数据孤岛,从而形成中数据的级别。一旦那个数据孤岛打破之后,原来我们做的市场调查是孤立的市场调查,由于数据被充分的挖掘出来了,我们根据数据中心解决用户需求的能力,如果我们匹配在一起看的时候。过去我们是角度做一个什么选择了,现在我们通过内部的数据,我们给你提出典型的方案充分考验你的能力水平,以及你需要做的能力建设方案,这样变成一个更加可行的解决方案。
为什么过去我们做产品创新,外部满足消费者需求的机会。但是如果满足消费者需求的行为,消费者有很多的需求,但是跟你的能力的匹配度我们很少考虑。如果我们把企业内部的数据和做的外部数据打通,再有专项交互数据支持的时候,我们能找到创新的方向,我们也能够知道你的能力有支撑的空间。以及如果我们把你的产品创新的方向和其他关联的合作伙伴和品牌,跟他们的方向相整合的时候,我们可以找到更多的资源。
很多产品在生活方面不见得是主导的,但是你明白生活方式作为一个大数据的价值,你可以参考跟你临近的产品他们的发展趋向,可以帮你推导,以及支持在你自己的产品和研发方面进行一些工作。
对这些工作,是我们在过去很长时间做的所谓有小数据往中数据,中数据的整合工作从而走向大数据。
事实上,我们今天很大程度上所谓的大数据,很大人讲比较多的是在讲基于互联网意义上获得的大数据。刚才说互联网大数据分两大大类别,一个是互联网本身的巨头和大公司掌握的数据库,它基本上是跟合作伙伴有一部分的分享,但是对外部基本是不开放的,它对于比如说像很多有大型能力机构的来说,我们跟大型机构合作来说,刚开始它们不懂挖掘,我们挖掘半天它们把我们的人挖掘过去了。所以像QQ,像腾讯,像阿里巴巴早期的数据,包括百度,我们都做了很多的,最后的结果是我们的人被挖去了。所以我们挖了半天数据把人挖过去了,发现挖人其实比挖数据是更重要的。
所以今天我们再去看网络上面的数据的时候,现在会看到我刚才说的两组重要的数据。事实上,今天核心的掌握这些数据的人们会因为他自己把自己的前台和后台数据加起来,然后说这是大数据。但是我已经告诉大家了,由于今天我们中国社会的互联网经历了两个很重要的发展阶段,第一个是传播互联网,第二个是交易互联网。今天唯独没有真正进入的产品本身的互联网化,这个结果是什么?我们真正有价值的是表面数据,而互联网数据最大的弱项,就是你即使拥有了整个阿里巴巴数据依然不能告诉你最理想的眼镜是什么样的。即使你有了所有京东数据,依然不能告诉你哪一款手环会卖的很火。为什么?因为今天站在非互联网意义上的那些本身不能告诉你未来,因为他们本身是无奈在便宜货平台上形成的便宜货大数据。
所以这是今天茫茫黑暗的大数据,今天的我们的扒取数据能获得所有大平台的大数据,虽然这些数据本身不能洞察真正消费者需要的内心的东西是什么,所以今天的方式是通过扒取方法获取那些平台的大数据的方法,我们用交互的方式产生一线天、二线天等等的方式,当然我们会来解剖和应用大数据。
大家知道,现在餐饮还是挺火的,这也产生了很多数据,这些数据累积起来,我们一方面能认知市场的现象,但是一方面是我们通过更多交互的数据,不同人群的交互人群,能发现哪个人群中的一线天是什么。这样我们就来提供解决方案,就是基于参与的大数据,但是最终找到在参与中间,什么样的东西是代表未来。而恰恰这些未来告诉我们,中国正在产生一种非常新的队伍,这跟以前很不一样的。
比如过去中国的餐饮意识是桌餐的,但是现在正在走向单品化。如果从供应链数据中可以看到,像做150个以上的菜的餐馆,会发现供应链和活跃度是低的,因为它要维护不同的小供应链,它的成本又过高,当你做150个菜的时候,你买的香菇太少了,当你做150个菜的时候,你买的牛肉太少了,你就会关注这些供应链,之后这些供应链会关注你,然后给你谈。
这些数据没有我们看起来像海量阿里巴巴那么多,它直接决定了一个企业,你的餐饮如何做,你可能更有未来和前提。所以在这个意义上,我觉得最后跟大家强调一下,破除对大数据的简单理解,我认为大数据是用小数据出发,构建中数据多元连接,形成了大数据,或者垄断型的大数据是超级型大数据,普通人获得的大数据结果,不是这个的。而真正的大数据的逻辑构建是小数据出发的多个中数据源构成的大数据,所以我们就有交易机会,交易能力,构成了大数据的交易世界。
在这个过程中正因为多元所以数据有竞争,因为竞争才有检验,因为检验才可以优化,而在检验和优化之后的数据会重新构建新的小数据,只有新的小数据才能落实成为,作为一个企业,作为一个部门,作为一个实施单元,你做决策时候的支持依据。简单的说,任何一个具体单位不可能简单的依靠一个单一来源的,表面上看起来数量很多的大数据支持到你微观单元的问题。就像一个普通的淘宝店,它也想上几款走俏的女装,不能简单的依靠阿里巴巴底下所有的大数据加以解决,再加上这个数据本身最你那款女装急需的人群的数据是不掌握的。
所以在这个意义上来说,我们所谓大数据实际上进入的是多元数据时代,每个有数据源的人都应该意识到,构建拓展丰富打通这些数据,使这些数据变得越来越大,当它渐渐长大的时候,我们数据交易能力和数据筹码决定了我们今天在DT时代你真正的地位,你在其中牟利的关键。所以每个数据拥有者,或者我们每个人都应该致力于把更多的小数据累积起来,从而构建我们在DT时代的数据竞争力,在这个时代获得更多的数据红利的能力。谢谢大家。