主持人:下面有请北京缔元信互联网数据技术有限公司的CEO秦雯为我们讲解大小数据结合研究用户体验,谢谢秦总。
秦雯:非常高兴、非常荣幸,也谢谢刘老师给这个机会来跟大家分享,先说两点感想。上午很遗憾,没有来听,我相信上午的发言更精彩,下午前边听了几位的介绍和分享以后,确实因为我自己本人在这个行业,我们说大数据跟市场研究这个行业是一个部分重叠,但还不完全说大数据就等于市场研究,在这个行业的话,这么多年我确实看到了整个大数据应用,从概念到应用、到落地越来越成熟,刚才时趣的王总的分享,我觉得应该说已经有一套自己的体系了,这是一个。
第二个,昨天在朋友圈看到一个小朋友发的帖子,他说他跟一个大数据专家聊天有三点体会对他打动比较深的,我想延展一下说一下。第一个,大数据不是解决平均的问题,而是要发现变异,我们再延展一下的话,就是大数据甚至不是解决统计问题,更多地是要解决个性化个体的问题,这是一点。第二点,大数据是要去发现新的商业模式,要去创新业务,而不是说只是落在我们说我们原来的市场研究,原来是样本数据,我们现在有大数据了,所以我们看到公开场合媒体上有很多传统做市场研究的,非常熟悉样本研究的专家,实际上对大数据都持怀疑,甚至排斥、否定的态度。在我看来,其实他们是从立场上、出发点可能就有一些问题。第三点,他分享的是大数据只是方法,关键是怎么去发现它的商业价值,我们前边这几年大家都在讲大数据概念、讲大数据的价值的话,其实对愿景、对未来大数据能够给我们带来什么,或者现在正给我们带来什么其实已经有很多论述,我经常在这种公开的场合说已经讲烦了,因为天天在讲什么是大数据,大数据有什么好处、有什么价值?实际在现在这个阶段,我们怎么能够去把大数据用起来,这个是我今天最后落,实际上我今天就讲一个具体的做项目的例子,落在我们的实际应用上,也就是说我们公司至少有一份业务是怎么挣钱的?数据是怎么变现的?
实际上这个题目其实是我去年参加咱们协会本来想讲的,为什么说我能感觉到大家的观念发生变化呢?去年参加的会议范围比较小,但是我听了以后我发现大家对大数据的认知有太多的偏差了,所以我去年把我这个PPT放下,我去讲了我认为的什么是大数据。今年有这个机会我还想把去年的案例,或者这个应用点再分享一下。当然我也不认为这个就代表了说我们未来大数据的一个必然方向和前景,但是至少在现阶段大家能看到它是怎么产生价值的。
这一张PPT我相信如果之前有朋友关注我们公司和关注我的分享的话,这一张内容其实我用过很多次了,但是是讲什么呢?我为什么不用大小数据了?因为我发现现在对大数据和小数据的定义也还是混淆不清的。我看有些文章说什么是小数据?每个人的完整的行为信息就是小数据,实际可能从另外一方面理解的话,我们把这种连续的行为数据我们认为它是大数据范畴的,所以这个理解不一样,干脆我们不讨论主意了,我们也不讨论概念了,我们看解决问题。比较能够容易界定的就是我们把它分成样本数据和监测数据,或者说调查数据和监测数据。这个里边今天跟我讲的相关的两类数据的区别点一个是主观的,一个是客观的,一个是断点的、一个是连续的,其他的一些要素和特性我就不展开讲了,我们进入案例环节。
这是一个跑步人群的研究,这实际上是一个咨询项目,也就是说客户想了解现在爱跑步的这群人,他到底是个什么样子?所以项目背景是我们的一个客户是做马拉松赛事的集团,它想推一个基于移动的服务于马拉松和跑步爱好者的手机应用。在这之前要做一些可行性分析也好,或者是项目的背景的一些分析,帮助他去制定他的产品、他的营销,包括他今后继续组织马拉松这样的赛事的时候的一些传播、推广的策略信息。
当然传统的这种问题,我们的抽样调查的方式,我相信大家都非常熟悉,我们看看从我们的角度怎么把这种抽样的数据和全样数据,和我们所监测的用户行为数据结合起来用,给客户提供的一个成果。落实到研究内容就这三个偏好,一个是运动,更多的是跑步这项运动的偏好,还有一实际上是内容偏好,他们在网上爱看什么,再有一个是品牌偏好,他在运动当中偏爱哪些品牌的相关的商品。这三个解决一个是对人群本身的特性,第二个是我们传播可能未来合适的渠道,第三个是营销的主要服务对象,解决这三个问题。
我们做的研究方法其实是两种,一种就是我们也做了在线的调研,主要收集的数据,或者说去了解的信息是这种跑步人群一些基本背景情况,和他主观上的一些对跑步的认识,还有一些偏好,这些信息。另外两个的话,兴趣爱好和商业价值我们是通过行为数据挖掘来做的,这是一个调研问卷,我不知道大家有没有印象,应该当时主要大的门户和一些APP都包括进去了。
行为数据怎么来做?大家可能在座的有些知道缔元信本身是在做大的媒体和独立的应用,还有一些垂直网站的全流量监测,这是我们的基本业务,所以我们每天覆盖了大概两亿多网民上网的在主要应用平台上上网的信息,所以我们在这样海量的信息下,我们怎么定义是跑步人群?这儿有一个全样数据,我们说的行为数据的一种方法。我们基本上把一个是从他的行为上,他看哪些内容,内容行为上去画一条线,还有一个的话就是他的上网习惯上,这是一个。把这个人群定义好的话,我们把符合这个用户的定义单提出来,当然设定一个可行的时间、周期,这个数据提出来以后的话,我们把他这个周期所有的数据都提出来,去做挖掘和研究。具体的处理就是一个所谓的大数据平台,因为我们也不会是只为这一个项目单独来做处理,这是整个大数据平台每天要做的处理内容,大概就是这几个环节,采集、转化、标签化、输出结果。
对我们来讲,实际这个项目操作的时候,当我们把人群定义好以后,我们实际上只需要去按照这个定义出来的标签把相关的用户从我们的数据平台里提取出来,就可以再去做进一步地分析和研究了。
我先讲一下在这个项目过程当中,这两类数据它是怎么相互结合使用的,首先第一个这两类数据互为前提,所谓互为前提我举了两个例子,我不展开讲,比方说我们说样本数据,我们是根据样本数据了解、知道跑步人群本身也是高依赖度的网民。因为如果说另外一个主题,这个受众或者说你要研究的对象它本身网络依赖程度不高的话,你实际上再去提这些数据,提他的行为数据就没有意义了,所以这是用样本的结论,或者说样本数据的结果作为模型法的前提。反过来的话,我们从行为,从跑步人群的行为数据上,或者反映出来的信息上,我们能发现他们的一些行为特征,但是因为这样的数据只能告诉你他是怎么样的,他不能告诉你他为什么这样,所以我们会根据发现的这些特征反过来去设计我们的调查问卷。我们有针对性地去问、去了解这样的行为特征它背后的原因,我们就说所谓的因果研究,所以这个是互为前提,这是第一点。
第二点,两个数据结果相互印证,同样的项目,这两个如果有差别,或者是矛盾的,那说明你本身的研究是有问题的。我举了一些例子,比方说我们通过这两类数据都能看到跑步人群的话,男性比男性多,中青年为主,中等收入为主,这是一个。当然在实际的项目研究过程当中还有很多其他的一些可以相互印证的结论和信息,我就不展开讲了。
第三点,更重要的是两类数据相互补充,我们看在样本法的话,我们更多地是去了解每个人主观上的一些东西,和在他网上的行为上我们反应不出来的他的信息。比方说他是不是经常跑步?他为什么跑步?我们如果在网上无论在手机上还是PC端,这个人哪怕天天去看跑步信息,他也不一定是跑步爱好者。我们之前有一个例子,汽车内容的用户,我们发现有一批这样的人,基本上天天来看汽车内容,但是好像跟买车没关系,最后研究出来的话,这批人是什么?是圈子里的人,他本身就是汽车行业的。这样的话,通过这样的问卷调查我们去了解他为什么?怎么样?模型法更多的是一些客观信息,他在网上怎样的一些行为特征和偏好。
最后还有一分钟,正好把我举的结论看一下,跑步人群在网上喜欢讨论什么内容,这是跑步装备里边他最喜欢什么,这一点也是两类数据互相印证了。这个实际上是一个所谓的用户人群画像,我们上边这个一排是男性,下边一排是女性,不同年龄段的人,他的偏好特征是不一样的,当然另外一方面我们也可以从其他纬度对跑步的爱好程度不同,可能偏好程度也是不一样的,这个数据都能够很灵活地做多纬的价差分析。这是对品牌的偏好,这个是除了跑步人群对汽车品牌的偏好,对明星的偏好,大概能够看得出来这样的研究和传统的只做样本研究的话,可能会有一些差别。
我最后想总结一句话,实际上我们在实践当中,我们基本上在类似这样的项目,我们遵循的是这样的一个金字塔原则,为什么是金字塔?而不是三块的叠加,或者是简单地相加呢?保证用户是同源的,我们在最基础的事实监测,监测数据我们知道客观行为、知道其然,我们通过用户调查去了解其所以然,尤其是在做互联网产品的可用性测试的时候,这样一个金字塔的方法我们是用得比较多的。
我估计我的时间也到了,谢谢大家,我今天就分享到这里。
主持人:谢谢秦总,缔元信这个公司在数据方面,尤其在一些汽车行业的相关数据我们跟它有合作,他们的数据会特别详细,包括到了每一个产车型,重级车什么样的数据分析,包括跑步的数据,很多运动产品、运动用品都做相关的活动。