发展大数据关键在于满足人的价值需求
早在1980年,著名未来学家阿尔文·托夫勒在 《第三次浪潮》一书中,就将大数据誉为“第三次浪潮的华彩乐章”。大数据为什么这么热?如何科学对待大数据?本报记者就此专访了中国社会科学院信息化研究中心秘书长姜奇平。
人类第三次创世纪工程旨在建设一个新维度
《中国社会科学报》:当前,“大数据”在业界和学界已成为 “时尚”话题,人们认为“人类已进入大数据时代”,并赋予“大数据”之于经济社会发展的作用以“革命性意义”。在您看来什么是大数据?
姜奇平:我们不用工程师的语言,而从“人类”和“时代”这个角度,看看什么是大数据。我们今天所从事的大数据,只不过是人类第三次创世纪工程的一个片断。整个工程的“目的”,旨在建设一个新的维度,使“意义”投胎到世界的“数据体”上。为什么这么说?我们可以这样表达,人类曾投了三次胎。第一次投胎的胎体,我们称之为世界1。这是实体的世界,它以实体为中介存在。这个世界以功能和使用价值,承载人们生存的存在。第二次投胎的胎体,我们称之为世界2。这是价值的世界,它以货币为中介存在。这个世界将一切转化为等长的社会必要劳动时间,即我们平常所说的价值。人们衡量一切事物的尺度,就是它“有没有价值”。这个世界以价值承载人们发展的存在。第三次投胎的胎体,我们称之为世界3。这是意义的世界,它以网络为中介存在。这个世界以意义承载人们自我实现的存在,要在以往的实用、价值的基础上,追求认同。
世界2是一个时空标准化的世界,它无法准确呈现意义的存在。今天,人们发明人际网络、物联网,都是在给意义一个适合的呈现空间,使事物隐含的快乐或痛苦的潜在含义,在我们创造的每一份价值和使用价值中鲜明呈现出来。大数据就是“意义发现”。通过意义的发现,指导价值的取舍,让有意义的价值实现,让没有意义的价值湮灭。
世界3的诞生,并不意味着世界2和世界1的消失。世界3只是相当于世界2和世界1的照明系统。传统经济相当于一个摸黑干活的系统,所谓“摸黑”就是指人们不知生产的东西哪些最终有需求,哪些没有,为此需付出巨大的交易费用,来实现供求平衡。“智慧化”相当于提供一个照明系统,让传统货币经济与实体经济不再摸黑创造交换价值(世界2的价值)和使用价值(世界1的价值),通过大数据照亮意义,即洞察最终需求,只创造那些有意义的价值和使用价值。因此人们经常把智慧比喻成明灯。这是智慧化对于传统经济的意义。
从这个意义上说,大数据与传统经济并不是对立的关系,而是一个递进发展的关系。大数据的应用,本质上就是在世界2、世界1中寻找并呈现意义。
大数据旨在实现“意义”的专业化
《中国社会科学报》:奥巴马政府将“大数据战略”上升为国家战略,甚至将大数据定义为“未来的新石油”。从当前及未来看,“大数据”究竟有什么用?
姜奇平:在这里就不介绍“大数据”细枝末节上的作用了,我仅谈谈大数据的根本作用,即实现“意义”的专业化。我先谈两个具体方面:
一是“意义赋值”系统的专业化。在大数据之前的世界,特别是工业世界,各种事务的功能系统、手段系统都是专业的,但一涉及意义,例如宗旨与目的,就变得十分业余。我们以智慧城市为例说明。从以人为本的角度看,智慧城市到底智慧不智慧,关键看它的“意义赋值”系统是否专业,有效还是无效。习近平总书记指出,人民对美好生活的向往,就是我们的奋斗目标。就等于说,人民才是意义的赋值者。离开人民群众,就没有意义;数据离开了意义,就没有智慧;没有智慧,建设的所谓智慧城市就一定是愚蠢城市,与民生实际相疏离。从这个意义上说,大数据对智慧城市建设的顶层作用,应该是把群众路线专业化,让人民群众满意不满意、幸福不幸福这类意义信息及时被洞察、被满足,从而使人民群众得到更良好的体验。
二是企业决策系统的智慧化。大数据之前的企业决策,一线员工没有决策能力,这是意义系统不专业的重要表现。用户需求这种决定企业生死的意义信号,不能在此时此地的分散条件下得到当下响应。大数据让决策这种意义处理系统发生根本变化,从后台决策向前端决策转移,从集中决策向分散决策转移,从价值决策向意义决策转移。
举例来说,人们对大数据决策容易有一种误解,以为就是数据大集中的决策。这是传统集中控制思维方式运用到分布式计算条件下常有的惯性。
海尔的决策模式强调 “群龙无首”。因为如果调动起每个自主经营体的主动性,使人人成为自己的CEO,这些一线员工就会进行分散CEO式的决策,没必要事无巨细非得通过“龙首”来决策。为此,海尔用战略损益表等制度,进行战略性的价值管理,使每个员工在决策时可以按企业的战略利益来权衡当前的形势,达到比集中式决策更优越的决策效果,其最高境界就是企业无为而治。
事实上,大数据决策应是集中决策与分散决策的结合。共性的问题适合集中决策,个性的问题适合分散决策。而且,二者不一定是对立的关系。例如,一线员工的分散决策,也需要并且可以调用数据中心的分析资源和计算能力;数据中心的决策,也需要与员工本地数据,甚至客户本地数据进行锚定和关联。按美国最新的情境定价理论,在一对一的营销中,产品和服务定价这种最关键的决策,可能要依靠用户本地数据,如手机中数据的参与,通过与数据中心数据的即时匹配来完成。用户数据参与决策将成为分散化决策的一个趋势。
不能离开人这一主体来谈大数据
《中国社会科学报》:“大数据”作用的发挥,依赖于数据收集、数据提纯、数据判断等多重关键要素。但数据有时候也会骗人,有学者基于此提出,大数据 “是一个过度包装的概念”,是个伪命题。对此您怎么看?
姜奇平:大数据当前确实存在包装过度的问题,主要表现在一些人把不是大数据的东西,都装到这个筐里,甚至夸大其作用,等等。但不能因此就把整个大数据说成是“伪命题”。
实质性的问题是,我们不能离开人这个主体来谈大数据。现在谈大数据,确实存在这样的倾向,而且这种倾向很普遍。例如,把“大数据”当作了“数据大”,这就确实接近“伪命题”了。因为离开了人这个参照系,很难判断数据是不是垃圾。
我认为,一些人看大数据的角度有问题。从数据这个角度解大数据,是客体的角度。仅从客体角度解大数据,缺点是难以聚焦,因为数据本身并没有告诉我们,它们的存在是为了什么。所以,我建议人们换一个角度,从主体的角度来看什么是大数据,也就是从大数据到底能解决人的什么问题这个角度,来看它是什么。这样看的结果,会发现大数据映射在主体上的是意义,是为了使人更好地获得智慧。对大数据来说,使人更能把握意义,就是智慧;干扰了人们把握意义,就是垃圾。
这个方向上的思考具有现实意义。许多专家都在提大数据的应用导向,就是在从客体供给导向,向主体需求导向转。不这样转,就成了为大数据而大数据,最后把要解决的问题丢了。这样的大数据,最后只会成为一地鸡毛、一堆碎片。更恶劣的是以搞大数据为名,其实是在为搞房地产、偷税漏税而服务,或者是套取、骗取国家有关资助,滥用纳税人的血汗钱。
我认为,“大数据”作用的发挥,不光有赖于数据收集、数据提纯、数据判断等多重技术要素,更关键的是应用,要同人联系起来,同解决人的问题联系起来。衡量大数据成效的标准,不应是TB这样的客体标准,不是创造了多少TB的数据,而应是利用这些数据,在满足人们需求方面创造了多少价值,有多大意义,这样的大数据才是“真命题”。
规避大数据过度发展的风险
《中国社会科学报》:您认为“大数据”的负面作用有哪些?
姜奇平:“大数据”是中性的,谈一个中性东西的“负面”作用,需要补上这个问题省略的潜台词,才能让这个问题本身成立。
第一种可能,如果不能正确利用大数据,会产生什么负面作用?我认为,如果离开主体,离开人们的需求、应用搞大数据,会造出许多数据垃圾,不仅不会让人的脑子变得更清楚,反而会加大决策成本,让人们迷失在过多的数据中,找不到所要的答案。
为了规避为大数据而大数据的风险,第一要强调以人为本。搞大数据的根本目的就是要提高人的洞察能力,使人变得更加智慧,至于发展技术、产业等次一级的目的,是由此派生的。第二要强调应用导向。对大数据,要抓应用促发展,以最终用户需求为导向,让大数据产生实效。要克服长官意志,让市场发挥配置大数据资源的基础作用。要避免只是从投入、供给角度片面发展大数据,最后弄出一些没有市场需要的政绩工程。
第二种可能,在大数据本身没问题的情况下,把大数据摆在不恰当的位置,或加以夸大,会产生什么负面作用?对此我认为,大数据在功能、价值和意义这一串价值链中,更多定位在意义上。意义要以功能和价值为基础,如果脱离了功能、价值而片面强调意义,负面作用是对整体产生虚化作用,也就是让事情不实在。
《中国社会科学报》:从中观上看,大数据产业的比重是不是越大越好?如何规避大数据发展不足或是过度发展的风险?
姜奇平:大数据产业比重不见得越大越好。它与产品制造业、服务业的比重应恰当。比重过高,就会出虚火。大数据作为产业,恐怕与经济的服务化程度有关,对农业、制造业、服务业等经济的服务化越发展,对差异化和质量提升的要求就会越高,对大数据的需求就会越高,大数据的产业链就会展开得越充分。而经济的服务化,也不应是人为决定的。一般在人均收入5000美元之后,出于对生活质量的追求,人们可能越来越多地把钱花在服务上。
为了规避大数据发展不足或过度发展的风险,需要的可能恰恰不是产业政策干预,而是要进一步发挥市场作用。美国《连线》杂志联合创始人凯文·凯利认为,未来人们会在个人信息保护与个性化服务需要之间达成均衡。对个性化的赋值越高,越倾向于开放个人数据,供服务者量身定制;相反,越不重视个性化(如只顾温饱),越倾向于保守个人数据,让服务者不了解自己。大数据的发达程度,显然与此机制有关。就中国现实情况来说,现在恐怕不是个性化供给能力过剩、服务水平过了,而是现有产业政策让同质化的中国制造产能过剩太突出了。因此,虽然从局部和短期看,一些地方发展大数据可能有点热,但整体上大数据发展还是不足的。
回到正确面对“大数据”的轨道
目前业界和学界对“大数据”这一概念的定义是:数据量的规模大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。这里的“数据”是一个广义的概念,包括数据、图像、视频、文字等讯息。
如果按上述定义来理解 “大数据”,那么有些学者提出的“大数据‘是一个过度包装的概念’、‘是个伪命题’”的说法就很容易理解了。我们现在经常遇到并且很容易处理的几百兆的数据,在20世纪90年代就称得上“大数据”了,因为那时的PC机配有40兆的硬盘便属于高配置,当时几百兆的数据连存贮都做不到,更谈不上处理。因此,所谓的“大数据”只是一个相对概念,随着计算机硬件技术、计算机科学和统计科学的发展,今天的“大数据”也许10年或20年后就是大学生普通作业题中所用到的一般数据了。
尽管如此,“大数据”的正面作用是不可否认的。由于数据规模爆炸式增长,以及大数据的特点——Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性),对计算机工程、计算机科学和统计科学提出了新的挑战。正是这些挑战,促使计算机工程、计算机科学和统计科学等领域的数据处理的理论、方法和技术得到快速发展。
在看到“大数据”正面作用的同时,我们更应该看到其负面作用。无论是计算机科学还是统计学领域的学者,如果今天还没有做有关“大数据”的课题,会被认为落伍了。今天以“大数据”为主题的跟风、炒作比比皆是,例如以“大数据”为主题的学术会议数不胜数,“大数据”中心或基地风起云涌,网络上与“大数据”相关的条目数以亿计。似乎“大数据”是21世纪第一个被发现的“金矿”,吸引了大批淘金者。而很多有关“大数据”的说法,如“人类已进入大数据时代”,“大数据”之于经济社会发展的作用以“革命性意义”,甚至把“大数据”的作用与第一、二次工业革命相提并论,“大数据”明显地被用来进行商业炒作。这样看来,“大数据”不仅不是什么金矿,更像是一个吸金的黑洞。我们永远不要忘记美国通过“冷战”拖垮苏联的教训,尽管“大数据”问题没有严重到“冷战”的程度,但其前兆已经显现。
与“大数据”相关联的科学问题是什么?在科学问题是什么都不明确的情况下,大笔科研经费投向“大数据”研究,大批“大数据”中心和基地在火热建设,这些现象的存在更像是在搞冒进,而不是进行科学研究。因此,“大数据”的负面作用要远大于其正面作用。今天的“大数据”更像是我国20世纪80年代刚刚建立的股票市场,一开市会吸引一批投资者,同时也吸引更多投机者。
大浪淘沙,理性必然最终回归。无论业界还是学界,在政府相关机构的正确引导下,随着时间的推移,必将回到正确面对“大数据”的轨道上来。
“数据矿藏”对于“知业革命”的意义
继农业社会和工业社会之后,人类社会正在迈向一个崭新的“知业社会”,其核心内容就是信息和智力的大开发,就像农业社会之表征是地表资源土地的大开发、工业社会之表征是地下资源矿藏的大开发一样,所谓“大数据”就是“知业社会”起步阶段在当下的一个“时尚”符号而已。
“数据矿藏”需深度开采
基于这一认识,“大数据”在本质上是一个“真命题”,而且“大数据”之于经济社会发展也确实具有“革命性意义”,就像工业相较于农业,对人类经济社会的发展具有革命性的作用一样。
但“大数据”不可能具有“无所不能”的功能。很有可能,不久就会有新的更加时髦的术语及话题取代“大数据”,这是人性对“时尚”的“刚性”需求。然而,问题之本质在很长的阶段不会改变。人类社会的生存与发展之主要矛盾终于不再完全囿于土地,我们正进入以信息和智力资源大开发为表征的“知业社会”。这是人类实现和谐可持续发展的必然之道。数据,不管“大”还是“小”,就是这一崭新的“知业社会”赖以生存和成长的“矿藏”。
矿藏需要开发、处理之后才能利用,而且前提是首先要认识其价值。回顾历史,各种自然矿藏在工业社会之前就存在,但在农业社会里,除了金银铜铁之外,人们对于散落在山坡上的煤块、飘浮在河溪上的石油,几乎熟视无睹,甚至当杂物处置,就算有所利用也是“小打小闹”。除了技术上的原因,更主要的是认识上的问题,甚至是“想象”上的问题。客观上,数据早已存在于自然世界和人类社会的各项活动之中,但过去人们没有认清其价值并缺乏收集、处理、利用它们的技术和手段,以至除了“数据”中的“金银铜铁”之外,对于其他“广大的小数据”,差不多也是熟视无睹,最多不过很小地利用一下而已。今天,我们必须清醒地认识到,不管你支持还是反对“大数据”这一“时尚”话题,就像工业革命依靠自然矿藏一样,即将到来的“知业革命”和“知业社会”,必须建立在“数据矿藏”的充分和深度开发、处理和利用之上。
“知业革命”不容错过
在此,我希望重申一下认识问题的重要意义。许多人或许不认同科学哲学家波普尔关于整个世界是由物理、心理、人工三个世界组成的观点,但客观上,人类至今的产业发展历程,就是农业社会在地表层面上开发了自然的物理世界;工业社会通过文艺复兴在精神和思维层面极大地激发了人类的想象力、创造力,诱发了科学知识的革命,进而从地下到太空对物理世界进行了深度开发;“知业革命”就是利用自然矿藏之外的信息与智力 “矿藏”,进行第三次“人工世界”的大开发,进而回头更加深度地开发第一和第二的物理与心理世界,实现三个世界的和谐生存与可持续发展。
我们没有机会及早认识到文艺复兴对于工业革命的意义,结果由世界上曾经的发达国家迅速沦为任人宰割的半殖民地半封建社会。希望惨痛的历史教训,使我们这一次能够认清基于“数据矿藏”的信息与智力资源对于“知业革命”的意义,从物联网、大数据、云计算到知识自动化、社会计算、智慧社会,扎扎实实地进行数据的收集、提纯、解析、利用等,使我们真正成为智力上的世界强国,实现中华民族伟大复兴的中国梦。一句话:我们必须以重视和利用矿藏的方式,重视和利用数据!
问题在于,眼下“大数据”已经被过度包装。凡事有度,“大数据”时尚,但非万能,不必事事、时时与之相连。正如时装的本质是为了推动健康文明,但不可时时、人人、处处都时装化。相对于视大数据本身为“伪命题”,我更倾向于认为“大数据的负面作用”是一个“伪命题”。科技本来就是一把双刃剑,关键是谁用和如何用。因此,此时讨论“大数据的负面作用”这一问题确实很有意义。我个人关注的是,在微信、微博等社会大数据之下如何保护个人隐私,还有如何防止大数据的大规模应用失误可能造成的“大错误”。个人隐私保护亟须相关立法,在保障合法权利之下,防止有人利用大数据技术进行人身攻击。例如,美国许多州已经或正在立法,禁止“报复性不雅照片”行为,即失恋或关系结束后将原朋友的私密照公开。至于如何有效避免大数据大错误的发生,不妨借鉴20世纪90年代由于无节制的计算机交易多次促成并加剧股市崩盘之后,有关国家对快速大量自动交易所采取的一些措施。
实时“社会信号”催生新型社会管理
不过,我更担心的是,不及时有效地开发、处理、利用“大数据”可能造成的负面作用甚至国家风险。从农业时代到工业时代,自然中许多物理反应过程在现代企业环境中变得更加复杂、强大、危险,由此催生了基于实时物理信号的自动化产业,因为如果还按农业时代的“自然”方式处理这些过程,就会在生产中发生许多爆炸性灾难。现在,我们正从工业时代走向“知业时代”,社会中的许多组织过程在网络环境中也变得更加动态复杂,“大数据”实际上揭示了实时“社会信号”的到来,也必将催生新型社会管理产业。知识自动化、社会及文化资源规划SRP和CRP等系统只是滥觞,我们必须尽快利用大数据,创新社会管理,开发出各种各样的社会管理和服务系统。否则,就像工业生产没有自动化就不能提高产能且容易产生事故那样,不利于新型社会管理和服务系统及时处理,甚至无视社会信号,也可能在社会过程中产生许多“爆炸”,危害社会的健康发展。
实际上,19世纪法国科学家安培提出“控制论”一词的原意就是科学地进行国务与社会事务的管理,只是当时还没有大数据和社会信号,但已经有了工业生产中的物理信号,因此只能把控制论思想用于工业控制,使工业社会得以实现。今天,网络技术、信息理论、智能系统已经把大数据和社会信号洪水般地推向几乎每个人的面前,我们必须尽快将其作为“矿藏”加以认识利用,创新社会和经济管理,实现“知业革命”,从而更有效地服务人类,向更加开放、繁荣、公正的社会迈进。
声音
即便大数据确实具有无所不能的神奇作用,这个事情也没有那么美好。因为这必然会导致公众隐私泄露,生活将被数据巨头操控。
以信息检索为例。在大数据技术下,不同的人用同一个关键词检索出的结果可能有很大不同。因为大数据会根据你以往的检索习惯,优先推送你感兴趣的信息。这就很可怕。因为这种“投你所好”式的信息推送,不仅使检索结果失去可信度,而且有可能会使公众陷入“商业陷阱”。因此,我们需要警惕的恰恰是大数据“真命题”维度下可能引发的风险。
——上海交通大学教授江晓原
值得高度重视的一个问题是,过热的“大数据”有成为一种“外壳”或“包装”的危险。一些地方的高新区、开发区,借新技术、高科技之名,组建各类“大数据”技术中心等,实则只是噱头,甚至成为“圈地”手段。事实上,在市场远没有达到如此需求的情况下,“大数据”研究及应用过早成为所谓热点问题和领域,只能最终沦为又一个哗众取宠之所。
——山西大学科学技术哲学研究中心教授殷杰