徐小良:
接下来白总给我们讲的是物理地域空间,并且他讲的是落地的物理地域空间商业化的应用,白总是北京华通人商用信息有限公司的总经理,他演讲的题目是《基于空间大数据的商业分析应用》,掌声有请白总!
白欢朋:
大家上午好!
因为我在倒数第二个,快到吃饭的时间了,大家听了两天,我今天不会分享太多,就一个概念,一个应用,希望最少的东西让大家记住。
一个概念是网格或者叫格网,相当于用一个空间的纬度来看待数据和应用。然后我讲一个应用,刚才吕总在分享的时候,大数据真正的价值,如果能把外围的数据,不管是调查数据,还是网络数据,如果跟客户的结果数据整合起来,这样它的价值可能会更大。所以我今天分享的案例是把外部数据和内部数据结合以后服务于应用。
这里面有一个概念,首先谈为什么是空间数据,大家想很多数据都是有空间纬度的。据说有80%以上的数据有空间的纬度,大家关注新闻,今年八月份有一张比较好玩的地图叫世界地图在网上流行,有一个网站被黑客攻击了,大量会员的资料泄密,这里面相当于有五万个城市的地图,排在前面的是巴西的圣保罗、美国的纽约、悉尼,据说看了这张地图,中国怎么样,中国很萌,证明中国也在其列。
从昨天到今天,大家谈的更多的是大数据。事实上我们把数据放在空间的纬度看,多重的数据叠加起来,它的意义会更大。所以我今天跟大家首先讲一个思路或者是概念就是空间数据,因为在我们这里面,现在传统的空间。比如说运维、互联网、去中间化,比如说中间网络公司、百货公司在关门,我们看空间重要不重要。
我最近有一个体会,今年十月份我到北海道,我想看一部电视剧,在国内下载了一半,我想看结局的时候,来了一个授权在本地区。我想当你走到哪儿的时候,其实你都带有位置的特征。因为最近我除了在政府讲互联网大数据的时候,另外一个词讲的比较多就是政府大数据。九月份政府出了大数据行动纲要,政府的数据不断的向社会上开放,也变成了另外一个,有人把政府大数据变成统计资产。
所以说在过去,我们分析数据的时候,政府的数据不开放,所以你很难做很多数据的应用。五年前我去看美国,美国在两千年开放了它的人口普查数据以后,利用人口的数据在上面做了很多商业开发和应用。所以我想第一个因素,我们为什么来谈空间数据。我们的数据随着商业数据,政府和互联网的数据也在不断的开放。
现在我们做市场分析的时候,我们大家谈的是消费者或者我们叫顾客,在这里面面对两个用户群,对于消费者来讲,我们有14亿的人口,这是我们巨大的红利。对企业来讲有2200万企业的单位,刘教授也讲了,现在每一年又近四百万的企业在登记,企业也构成了很大的消费市场。所以我想政府数据的开放跟我们做空间的分析成为一种可能。
现在我们的技术,比如说空间的技术,当然现在大家用到的导航技术等等,空间的技术很发达,这就是空间技术。为什么是网格技术,我们做市场评估的时候,我们会用到人口的技术,传统政府统计的时候按照行政单位,不管是一线城市或者是二线城市,按照城市的划分,包括甚至到区、街道、居委会的划分。
实际上我们在做研究的过程当中,我们看一个商圈,理论上来讲三公里的商圈或者是几公里的商圈。但是实际上,因为受它的商业分布不同,包括像住宅的不同,甚至道路的不同,有没有一条河流拦截。很多商圈是不规则的,我们做经济分析的时候,我们很难说用一个圆圈来代表。比如说我们想象北京王府井的商圈,是沿着王府井大街南北向发展,现在我们叫金源MALL万柳商圈。当我们做市场分析的时候,传统意义上按照行政比较大的数据,很难满足我们的需要。所以我们会想到能不能颗粒度更细,这里面我们提到网格。事实上我们按照中国的地图或者是行政机构,按照格网划分。比如说每平方公里或者我们知道是200×200,我们在做商业活动的时候,你的格网越小,你未来做商圈汇总或者是市场分析的时候,你应用的更灵活。
是不是越小越有意义,那倒不是,你做成50×50一栋楼分成两部分也没有意义。目前来看我们做的数据已经做到200×200,我们觉得更有意义。200×200里面中间放什么东西呢?这些人到底都在哪里,通过这样的网格分布,我们又能很清楚的知道人口分布在哪里。我在这里讲的人口是普查的常住人口。当然我们看一个区域,怎么比较这两个区域之间的差异,除了人口以外,当然比如说他的收入指标、经济状况,甚至比如说他的汽车分布,以及灯光的数据。
当我们看城市发展的时候,当我们俯瞰一个城市的时候,特别是进行比较的时候,你特别能看到北京不断的向外面扩展。我们有时候看到一组数据,有一个城市的灯很亮,事实上我到那个城市做调查的时候,发现那个城市是鬼城,政府为了让老百姓住在那里,住的人少怎么样,对开发商有一个要求,晚上必须把灯开着,尤其是在没有交房之前把灯开着,单一的指标不能反应真正的人口分布。
现在我们想把尽可能有的数据,目前的网格数据我们跟中科院地理所合作,包括遥感的数据,人口的数据,当然我们大概有十五种数据整合在一起做网格。
未来利用移动数据可以解决它的流动人口问题,还会有其他的办法,不管怎么样,有了网格的化,我们在商业的选址和网点的优化,包括我们做精准的营销成为一种可能。在目前方面因为受隐私的影响,我们到不了人可能到区域,这样的话网格就有它的意义。在空间的研究过程中间,如果我们把更多的数据放在网格里,当然网格有一个好处,当多一种数据放在一个格子里面比较的时候,可能得出来的意义比较明显,这是我们提的空间智能的思路。
这是我们看到格网,我们把全国按照人口、土地、交通等等活动情况,我们做成200×200的格网,实际上在两年前我们跟美国密西根大学合作的时候,当时做到每平方公里,大家可以看看下面两张图是不一样的,一个是一平方公里人口分布的情况。另外一侧是200×200的,你会发现如果它的颗粒度越细,可能反应一个地方真实的情况会更准。
我们可以看有一些地方标0的,说明这个地方有湖泊或者是沙漠,我们可以把整个基于政府统计的数据,因为大家也知道,比如说当我们要求总量数据的时候,没有任何一家商业公司能做出来,必须依靠政府的资源。政府的数据并没有告诉我说,到这个区域里面大概有多少人。大家可以看到这完全可以根据建筑物,根据灯光把人口的密度分摊到每一个格子里面去。
利用这个格子以后,这是一个基本的概念,比如说我们基于自身的人口数据,接上我们遥感的数据形成格网化的数据。比如说我们有一个应用,举一个简单的例子,我们的客户做网点优化,这是加油站的案例,有的加油站做的好,有的加油站做的不好,怎么判断加油站好坏,除了经营的状况,这个人有没有能力以外,也会有其他的情况,我们把经济、人口、汽车所有的数据整合到这里面,这是分析的办法。
基本的逻辑,我们认为整个地区它的经济或者是跟它的消费数据相关的因素越集中的地方,它的潜力应该越大。我们会根据这样来做一个优化的建议,事实上我们到北京来看,这是北京在五环里面加油站和人口分布的情况。另外一个排名的情况,红色的是人口的得分,蓝色的是客户内部的数据。我们看人口的分布和内部的绩效,我们把客户可以提供的大概的加油站进行比较。比如说这是跟经济的关系比较,跟周边的商业环境,我们的商业网点。由于商业网点是集客的方式,在每一个因素过程当中,我们要算出来每一个因素对它的贡献度是怎么样的。包括周边和交通的空间分布,积极像汽车的分布情况。
通过这个我们可以得出来,这个客户在北京来讲,排在最好的是月坛的加油站。因为那个地方大家能想到二环边上,那边是政府,这边是金融街,应该是商业或者是经济比较繁华的。大家这里面也会有问题,总体上我们看这个趋势,我们的市场潜力和内部客户的数据还是相吻合的,比如说我们排在华威路的,从潜力上来讲,它的客户排31名,我们现场调查可以解决的问题。
这里面找出来差异性很大的去看,我们又重新算了一遍,发现它应该做的更好,为什么呢?这里面发现整个布局有问题,加油站门前有一个建筑物挡了它的道。所以在这些方面,它进出很不方便,影响了它的效率。类似这样我们一手调研,通过现场的数据进行补充,我们给客户很好的合理化的建议。
我们想一想,如果客户把全国的加油站给我的时候,如果这个模型整理的话,我会基本上对所有的加油站的经营情况进行一个排名,你怎么运筹千里之外,可以用这个决策功能实现,谢谢大家。
徐小良:
谢谢白总。