说在前面的话
认识刘德寰教授,掐指算起来已经快15年了,第一次认识刘老师,是在市场研究协会举办的一个短期定性研究培训上,刘老师给培训班做了他对人群所做的研究(他简称为“傻博士现象”)的讲座。他独特的思维和深刻的洞察力,以及妙趣横生的演讲能力,都给我留下了深刻印象。
之后几年里,刘老师经常受邀参加我们方向硕士研究生的毕业论文答辩,屡次与刘老师同为答辩老师,听他对论文鞭辟入里的分析,每每觉得很是过瘾。从刘老师身上能感到北大所传承的严谨的治学和独立的思考。感佩他深厚的学术积累和对研究方法娴熟的掌握和运用。从下面的访谈中,也同样能感受到刘老师身上独特的学术魅力。
著作包括:《年龄论:社会空间中的社会时间》、《没有极限的未来:手机人全面解构产业》、《颠覆与重整:手机人的群落与游牧》、《正在发生的未来:手机人的族群与趋势》、《透视电商:网络购物消费者研究》、《银行业的互联网之路》、《市场研究与应用》、《现代市场研究》、《市场调查教程》、《市场调查》、《社会调查的理论基础与实用方法》、《中国人读书生活透视》、《希望工程调查》。
访谈实录
01
大数据时代,方法变了?
现在很多人都在强调“新”,强调大数据,强调大数据中一些比较炫的部分、比较简单的部分。但是实际上,研究方法的根是没有变的:基于统计的推断、分析的基本范式,这些其实并没有变。所谓的“变”,只不过是加了一些炫的名词和一些角度而已。纯数据带来不了任何东西,一定是数据的解读和分析才具有意义。但是现在大家都强调对数据的拥有。我在全国范围内做一些关于“大数据隐忧”的研究,发现新闻传播学科、包括其他一些学科,都还是偏重在方法中比较简单的部分,极少涉及方法中复杂的内容,而且方法使用的错误率极高。
都说大数据是金矿。可这是沙里淘金。绝大部分内容是沙子,金子是很少的。大数据最大的麻烦是,你想在稻草里找这根针,问题是很多稻草和针长的一模一样。你怎么来判断,这根是稻草,这根是针。这实际上是非常难的。大数据有数据并且数据收集简单。对于绝大部分不懂抽样、不懂数据的人来说,“大”本身就是好。大数据在现有技术上,又把图形化做的很好。这就是science and arts 中的arts。我曾经看到过一个微博影响力的扩散图:一个一个扩散出来的不同大小的同心圆。那真是好看。可是我一看结论,我明白了:谁粉丝量大,谁的圆就大,谁的影响力大。这个事就不是那么严谨了。大数据现在绝大多数做的都是类似的事情。
中国现在在两个大数据领域位于前列:一个是可视化,一个是所谓的智能化推送。可视化操作简单易上手,重要看审美。所谓的智能化推送,没办法验证分类差异的科学性。只要把人一分类就比不分类强,很多人都是拿着国外的R包,拆解一下,换换数据,调调权重,拼装一个,完全没有基础研究。原创几乎没有。商界真正在负责这部分的人很清楚这些,也在焦虑。
学习方法很简单?
02
现在,方法的简单部分普及度极高,甚至有人说:“人人都会数据分析”。这是我觉得特别可笑的一句话。这也是不可能的事,因为没有多年的积累,数据分析很难做好。
学生们很愿意学习通用线性模型,因为它简单:无论是使用spss还是R语言,构建线性模型都非常容易。我在教授计量等简单课程时,基本上两到三个小时就可以讲完,但是一旦讲到比较复杂的回归分析时,基本上需要9个小时左右。学生们也需要相当长的时间进行课后学习。对学生们来说,他们没有太多方法方面的基础,在教学过程中老师教抓取、教展示,虽然皆大欢喜,但是实际上与西方的距离越来越大。因为它在走向简单化。我大概做了一个测算,每年把复杂建模学会的人大概占到选课人数的5~8%,而这些人最终还没有留在学界。
我的课堂非常有意思。现在是160人的课堂,涉及到3个系的硕士和博士。开始阶段,160人肯定是坐满的,大约还有20个左右站着或者拿着凳子的。这个情况一致持续到11月份。讲到回归比较难的部分的时候,所有凳子肯定是没了。坐在座位上的人开始逐渐的减少,最后会少于选课的人数。走的那些人,觉得听不懂了,也觉得累。因为等到真正建模的时候,估计连续得有一个月的时间,晚上睡觉得到凌晨三点左右。你要想学会百分之百就得如此。他认为反正SPSS我也会了,线性模型我也会了,关键是他认为发表文章已经够了。可是,如果你想找到任何一个变量,控制其他变量之后,研究与某一现象的关系,我们称为f(x),这个f(x)是无限的。找寻到这个越渐近真实的f(x)的过程是非常辛苦的,而且是没有尽头的。回归分析难,难在残差,但是基本上绝大多数人不讲残差分析。看上去好像数据的结果都能出来,可是其实出来的结果存在问题,这样人家就会说:“你定量研究有问题。”但是实际上每一个分析,在分析到位的时候,都是社会生活的一个缩影。这一点是非常清晰的。
03
方法很浅显?
学界现在有两种人。一种人蔑视方法,注重实践、注重所谓的理论。但是实际上,更多的是“拍脑袋”的理论。因为真正的理论,还是需要一个基础的建构。还有一种人声称“重视方法”,却只重视方法中最简单的部分。所有使用通用线性模式的线性问题都非常容易。聚类也不是简单算算就出来的,这个里面的门道特别多。我们在做市场细分研究时,聚类的过程是非常辛苦的,通常需要几个月的时间。模型的建构不可能是这么简单。
一个不懂方法的人看到方法的内容,就会觉得“他是用数学来做的”,然后稍微学了点方法之后呢,基本上就是用那种最最简单的方式去展现,错误率特别特别高。在定量这一部分,如果哪一篇文章是用频率表或交互表去做的研究,这个研究的正确率基本上到不了10%,基本上全是错的。但是,因为内容中有“数”,就特别容易被发表,而编辑队伍中,懂分析的人又极少,所以越深入的量化研究越不容易发表。这样就使得鱼龙混杂,从这个角度看,有人评价:“定量研究特别浅”,这没问题。发表出来的内容确实定量的使用特别浅。
当一个学科稍微成熟的时候,一定是注意理论和方法的。在你没有把复杂的内容学会,你就不可能知道还会存在错误。当你知道了复杂的之后,再回看自己原来写的文章,有时候会后脊梁骨发凉,意识到“糟了,这个错了”。这是在强调简单化分析时无法做到的。
在谈到因果模型的时候,基本上看不到非线性,看不到交互作用。好不容易看到一篇文章使用交互分析,还是错的,使用的是完全不符合逻辑的模型。即便如此,这种复杂模型的应用在国内已经非常少见了,就只有快速而无效的文章。这导致对于复杂模型的需求减少了。绝大部分人不知道,他觉得自己所学的就是对的,认为复杂的不需要。全面地走向简单化,走向好看,走向忽悠人,这是方法领域最危险的事情。
研究社会生活中真实的1%
04
现在很多人做分析都喜欢强调,“有20%的人喜欢,这已经可以啦。”然后去分析这20%。可是社会生活中有什么东西能够有20%的人喜欢。如果一个产品有20%的中国人都喜欢,那它得什么样啊?这是不可能的。绝大部分应该是在百分之一左右。这才是真实的。那么我们就要研究这百分之一到底是什么样的人,他们辐射的影响力又是怎样的。
从2008年开始一直到现在,我的团队每年都会做一个特别大的研究,就是有关移动互联网的“手机人”系列研究。在这个研究里面,我们通过构建多次项的四次方或者五次方模型,发现这些年来苹果用户在年龄分布上呈“M型”。M型的核心有两个,一个是年轻的果粉,一个是“技术红颜”。“技术红颜”是一个年龄在35岁到45岁、文化程度高、收入高的女性群体。她们买所有科技产品时,都会选择技术最全面、最先进的产品,但使用其中不到10%的功能。这一群体只占整个移动互联网用户比例0.67%。有谁在乎这个群体呢?但是她的影响力是非常大的。苹果用户M型分布,这八年以来一直如此。它的发展在此,瓶颈也在此,很难突破,想把这部分人从市场中切走,也切不走。
有没有一个说法,文化程度越高,某个现象越是怎么样。在现实生活中,这是从来没有存在过的。但是在统计上的显著性几乎是永远会存在的。原因很简单:在你调查的样本中,某几个部分占比例极低,直接进入残差,所以线性化色彩就会变得非常明显。但是绝大部分真实的情况,变量与现象的关系是“N型”或者“U型”,比如“傻博士”现象。在撰写《年龄论》时,我总共在里面涉及了47个模型,来研究年龄影响人的各种各样的方式。我认为这还没有弄完,肯定还有很多。我大概测算了一下,年龄变量对某一现象的影响,线性率可能只有百分之一。绝大部分是非线性的。非线性逻辑才是日常生活的本质。
05
1%有着改变世界的力量
《七八月的孩子》源于偶然读到了《异类:不一样的成功启示录》。这本书中讲述了一个惊人的发现。加拿大心理学家巴恩斯利通过搜集职业曲棍球运动员的出生日期,发现加拿大曲棍球运动有一项铁的规律:1-3月出生的球员比例为40%,4-6月出生的球员比例为30%,7-9月出生的球员比例为20%,10-12月出生的球员比例为10%。其中道理其实很简单。因为在加拿大,曲棍球联赛的法定注册时间是1月1日。这就意味着,一个9岁的男孩必须是在1月1日之前满了9岁,才可以进入9岁以上曲棍球联赛。而同一年的12月份之前还没满10岁的男孩,却只能暂时被晾在球场的另一边——这个年龄正是发育的青春期,12个月的差距会给他们的体质造成巨大的影响。
这种制度的影响给了我们一定的启发,于是在游戏研究的过程中加了一道题“你是几月几号出生的”。我们通过复杂建模得出结论:“七八月”出生的孩子更依赖网络游戏,游戏涉入指数高于其他月份的孩子,沉迷风险更高。这是因为制度要求“8月31日前须年满6周岁才能入学”,所以9月1日出生的孩子和8月31日出生的孩子一起上学,学龄却整整相差了一岁。9月-12月出生的孩子更为成熟,往往会有班长、学委等班内职务。这部分孩子也因此更加自律。而7、8月出生的孩子本身年龄小,不成熟,他们更像是班中的“吉祥物”。这一点在男孩子身上的体现更为突出。这样,对于9-12月出生的孩子而言,就形成了一个顺着制度发展的上升路径。更为重要的事实是,在发展机会方面,7-8月孩子进入重点中学的比例最多比其他月份出生的孩子低23.3%。这种情况一直发展到博士。北大的博士生日在9-12月的比例远远高于7、8月。这个制度影响了一个人的一生。
《社会学研究》审这篇稿子审了整整一年。评审从理论和方法进行全方位的审核。谢宇和他的学生还写了文章来反驳我,对这个事情进行反复的商榷。商榷本身就是理论视角的讨论,是从不同的模式进行解读。之后就有一系列的人进入了这个讨论。这是非常好的事情,是我特别愿意看到的事情。
做学问是一个「门套门」的过程
06
做学问是一个“门套门”的过程。你入门之后,发现自己喜欢这个方向,那你开始往这个方向里钻,这个方向里这一点有意思,然后再钻进去。这样一步步深入。而不是站在第一个门的门口,以为这就是全部。
我受我父亲影响特别大。我父亲是做世界近现代史研究的。《辞海》中所有世界近现代史的条目都是我父亲做的。我父亲退休之后花了20多年的时间写了80多万字,研究日本公务员制度史。老人家电脑完全不会,爬格子,一点一点写。这20多年,就写了这一本书。我也特别尊敬柯老师。无论风向怎么变,柯老师也没有变,一直在踏踏实实地做学问。学界的研究就应该如此。即便是想要赶潮流,也要去谈潮流存在的问题。
在我写《年龄论》的时候,年龄这个变量我研究了11年的时间,就是每天在电脑上看年龄这个变量和其他的变量的关系会形成什么样的模型,不断探索理论模式。这11年我什么别的事都没干,没有发一篇文章。
很多人知道我主要做建模,也做田野调查,但是不知道我在博士开了一门课叫做“西方社会理论思想史”,专讲西方思想史。理论和方法,这是一个学科的根本。方法应该回归方法的本身,如果一个学科对自己的方法没有深刻的反思,那么只能走向泡沫化。这是我最担心的事。