“大数据”一词越来越火辣,煽动全球。本文作者及其团队结合自身近几年走访国内外多家知名大数据企业宝贵经验,深入调研剖析“大数据”产业到底是怎么回事。
从美国的SaaS、亚马逊、谷歌、苹果、思科到中国的华为、腾讯、浪潮及航天某某研究所;从美国北卡三角地、旧金山的硅谷、波士顿的哈佛及MIT到中国的北京中关村、深圳前海、清华大学及北大——等等。我们通过诸多神不知鬼不觉的走访、调查和分析,终于可以撕下“大数据”神秘的面纱,也确实搞明白了:数据处理技术如何才能服务于各个产业领域的技术升级和业态创新;同时也搞清楚了:为什么海内外相当一些所谓的“技术权威”及科研机构,能够靠玩概念、攒项目从政府和投资人那里攫取大把大把的资金,最后却没有实质性成果。
而实实在在的大数据成果,却来自一流的IT企业内部。最近几个月,受邀走访调研了全国二十多家科技产业园区,感触良多。
一、撕开“大数据”的神秘面纱:原来如此!
中国经济运行虽然已经步入严寒季节,但“大数据”一词热得烫嘴,无论是政府官员、产业精英,还是IT领域、高等学府、高技术开发区,如果开口闭口不说“大数据”,似乎都不好意思“混在当下”;如果嘴里偶尔能蹦出一两个诸如Hadoop、Storm、Spark、IOE的时髦名词,就更显出一幅业内高手的神态。
其实,我要说的是:“大数据”并不是什么新鲜玩意儿,自从工业革命开始以来,数据科学就越来越得到人们的重视,只是到了21世纪初,数据应用的积累,深深触动了产业重构和业态创新,“大数据”一词才应运而生。
“大数据”并非数据越多越好、运算量越大越好,其综合含义应当是:针对并服务于某个特定目标的立体数据生态系统,而且这个系统中的前端功能模型、中断数据架构及后端算法及编程,是一个统一体系。确切地说,“大数据”概念的内涵及外延,主要体现在三个层面:
一是基于行业趋势及产业业态创新的需求端“功能模块”的构建,这是一个需要具有大数据思维逻辑的产业经济的命题。比如:如果要优化一个区域的旅游产业结构、投资结构、资源配置结构,可以通过完善产业供给链达到延伸游客消费链的目的,这就需要建立区域性的动态运行的“旅游产业大数据”信息系统,而此举首先要做的是:产业发展物理模块的策划、设计、搭建和论证。这项工作是实施这项大数据项目的“前提”。
二是基于产业发展功能模块基础的“数据模块”的搭建设计,这是一个紧密服务于应用端诉求的有效数据关系分析、确定算法的复杂过程,这也是数据建模及搭建特别功能属性的数据仓库的过程,需要用人力思维与计算机算法的有机结合。目前,这个领域的技术才刚刚开始向产业领域渗透,未来可拓展空间很大。
三是基于数据模块进行的数据挖掘、采集、清洗和应用编程。这个过程实际上是“技术工人”的工作,多数计算机及信息系统专业的人都可以完成,如果在熟练应用传统计算机信息系统应用软件的基础上,熟练掌握Hadoop、Spark、IOE等操作系统,就可以完成此项工作,但更多的工作量还得基于Excel来完成,因此,把Excel玩熟玩透是玩好大数据的基础,或许更有价值。
综合来看,大数据人才的价值主要体现在上述的前两个层面。
二、一流的大数据人才到底隐身何处?
当下的中国乃至全球,能真正看清“大数据”的真正面目,并通过数据革命引领产业创新的优秀人才屈指可数,到是人云亦云、跟风弄潮者确实不少。可以不夸张地说,全球范围类,类似Perntland(MIT)、Norvig(Google)、Geoffrey Hinton(Google)、鄂维南(北大)、Andrew Ng吴恩达(百度)这样的大数据专家,全球也不过二三百人,而赴其后尘者的新锐大数据专家,估计全球不过千人左右。
所谓的大数据专家,不单是计算机及信息系统领域的专家,也不是行业及专业领域里的权威,而是善于把应用诉求端与数据技术服务端,用大数据思维整合到一起的复合专家,通俗来讲,是市场行家、产业及产品专家、有效数据资源识别及配置高手的复合体。
大数据专家既可以是一位在某个行业领域里具有这三项功能的复核人才,比如:MIT的Perntland、谷歌的Norvig、百度的吴恩达等大牛,也可以是具有这三项功能的人形成的“人才组合Team”,比如亚马逊的物流物联研究小组。真正的大数据专业人才之所以太稀少,是因为他们的思维细微深深扎根于市场,他们是从市场上“野蛮”生成的,绝非闭门于高等学府可以修炼出来的。
上述的这些大数据专家到底隐身潜伏在哪里呢?俗话说:大隐隐于市。他们就隐身于一流的科技公司埋头钻研。纵观全球,百分之七八十的优秀大数据专业人才,都就职于全球顶尖的科技公司,在高等学府和基础研究机构的大数据专家的确很少。
三,中国要振兴“大数据产业”得先做好两件事
中国作为全球经济产出体量最大、消费需求规模最大的新型经济体,大数据产业对推动各个产业领域的创新发展,具有不可估量的发展空间。但是,振兴“大数据”产业,既不能盲目受产业领域专家的影响,也应当突破“技术官僚”的小圈子,面向市场、面向一流的科技企业、面向年轻的技术队伍。大致来说,应当在两个方面发力:
一是加速大数据应用的系统工程建设。这是最主要的、也是见效最快的,此举需要具备“乔布斯式的组合混搭思维”加速推进中国的大数据产业发展,即:用大数据思维模式把行业、产业专家与数据专家有机结合起来,直面各个行业领域的产业转型及业态创新。
二是加速基础数据工程建设。这是一项基础研究,是慢功夫,需要在西方现有的技术软件基础上创新研发,短期内要有突破性的成果还比较难,但要舍得投入。这方面应当由数据技术专家领衔和主导,在高等院校和对应的科研机构完成。从长远看,此举是提升国家大数据技术水准的战略举措。
切记:不要将上述两个方面混为一谈。但这与“产学研一体化”不矛盾。
大数据不是万能的,老老实实地基于人类经济及社会进步的理性诉求,推动大数据产业的理性发展才是正途。因此,未来中国大数据产业的发展,应当着眼于中国经济社会发展进步的未来趋势及生产力水平,构建不同行领域的大数据生态循环系统。