统计模型法是统计学的最基本研究方法之一,略复杂一点的统计分析通常就会借助统计模型。一般地,统计模型可以分类为参数模型与非参数模型、线性模型与非线性模型、一元模型与多元模型等等,应用领域十分广泛。然而,统计学家George Box曾经说过:所有的模型都是错的,但有些是有用的。我们该如何理解其中的意思?
所谓统计模型,顾名思义就是用以刻画、反映现象发展变化趋势、或测度不同现象之间内在联系关系、或据以推断总体特征的数学方程,所以模型构建的过程,就是把上述趋势、关系和特征进行量化的过程,因而统计模型的关键词就是变量、参数和方程形式。衡量统计模型的构建是否成功,就看其中的变量、参数和方程形式是否符合所研究问题的实际情况而浑然一体。
为什么说所有的统计模型都是错的呢?我想可以这样来理解:首先,统计模型毕竟只是用一定的方程给出一个模拟的型态,由于不知道所研究问题的实际情况,所以模拟的过程没有真实的参照物,只能根据已经掌握了的有关信息去勾勒其可能的状态,因而它不是真实的,与实际情况不可能完全一致。其次,统计模型的构建有很多假设条件或限制条件,这些假设通常由一组概率分布来描述,其中一些概率分布被假定为充分近似于对特定总体进行抽样的分布,因此,统计模型只是以相当理想化的形式来表示所研究问题的数据生成过程,是统计推断理论的形式化表示,而这些假设条件或者分布往往是不严格成立的,有时甚至差距很大。第三,统计模型由与一个或多个变量相关的数学方程来确定,确定的依据是已掌握的样本数据或历史数据,是样本数据(历史数据)与方程形式固化的理想结果,因此在据以进行放大推断或外推预测时,实际情况不可能与模型保持一致。第四,在统计模型中,我们通常都把涉及到的变量当成随机变量来处理,而事实上很多变量、特别是社会经济统计变量并不是完全的随机变量而是半随机变量,因此,基于随机变量假设的统计模型不能很好地刻画半随机变量的统计数据特征。第五,就同一个研究问题而言,可以构建的统计模型绝对不止一个,无论是方程形式、变量及其个数、参数设定还是有关假设,都可以有多种选择,没有公认的评判标准,在不可能构建出所有统计模型的情况下,只能按照一定的原则给出其中的一个模型。综上所述,没有一个统计模型可以做到与实际情况完全一致,有些还相差甚远,因而所有统计模型都是错的。如果依赖统计模型就能解决实际问题,那么世界就变得简单了,而事实并非如此。
但为什么又说有些是可用的?我认为其理由在于,统计研究作为量化认识事物本质特征的方式,就是要用统计数据去描述事物特征,以统计规律去逼近事物的本质规律,而统计模型则是发现和描述统计规律的有效工具之一。当基于统计模型的统计规律能够比较好地解释客观事物的问题、本质和发展趋势时,它就是有用的。也就是说,统计模型是否有用,取决于它对现实问题的定量解释能力。那么,其定量解释能力来自何处?这才是问题的关键。我认为它来自于对所研究问题的了解程度,来自于对涉及变量的解读及其关系的判断程度,来自于相关假设条件的满足以及对它们的把控程度,来自于数学方程的适应性和可解性,来自于构建模型所需数据的真实性和可取得性。只有当这些方面都达到相当高的程度时,统计模型才具有足够的定量解释能力,才有意义。然而在现实中,并非所有的统计模型都能做到这些要求,通常只有一部分符合这些要求,所以说“有些”是“有用”的。由此可见,要想构建一个可用的统计模型绝非易事,需要做大量的工作。
这里,我们再借用一个例子来说明“所有的模型都是错的,但有些是有用的”这句话的道理。我们身上的服装,绝大多数情况下都是商场购买的成衣,很少量身定做。厂家如何批量生产服装?依靠模型。服装模型对于能否生产出受消费者欢迎的款式十分重要,它需要考虑的尺寸变量少则几十个,多则上百个。它需要先根据特定消费者群体的身高体胖特征分成若干组(大、中、小),然后每一组再设定几个款型(松、紧)。由于人的身高体重可以通过调查观察掌握其大致分布规律,因此设定若干比较合适的服装模型是可以做到的。最后被确定用以生产服装的模型,是从大量的设计模型中筛选出来的。严格地讲(即就消费者个体而言),任何一个服装模型都是错的,因为它都不是根据消费者个人的身材来制定的,都只是消费者群组中各个变量的平均值,消费者只能按照靠近原则选择尺码最适合的服装。但实践证明,这些服装模型是有用的,因为它基本符合了特定消费者群体身高体胖的分布特征,多数消费者可以选择到尺码比较合适的服装。少部分消费者选择不到尺码合适的服装,就相当于统计模型中的误差。部队服装的供给,也是根据这个原理。
总之,模型是固化的,而现实是变化的。用固化的模型去反映动态的现实,只能是一种参考。所以,我们在开展统计分析时,要一分为二地看待统计模型,既不能轻易否定统计模型的作用,也不能盲目崇拜统计模型,而是要一切从实际出发,根据问题本质来考虑是否需要借助统计模型、需要构建什么样的统计模型以及如何构建统计模型。特别需要指出的是,我们应该努力避免滥用统计模型的现象。现在有一种普遍观点,认为没有统计模型的统计分析是没有深度的。无论是公开出版的期刊论文,还是学士、硕士和博士论文,都大量充斥着各种各样的统计模型。在有些学科领域,有无统计模型成了衡量论文水平的不二法则。在这样的导向下,很多论文就生搬硬套统计模型,不顾所讨论问题的背景和本质,不管有关假设条件是否满足,不论作为建模依据的内在机理是否清晰,不究相关变量之间的内在联系是否成立,就给出了所谓漂亮的模型。有些统计模型构建者,甚至都没有弄明白要做什么,没有读懂统计指标的含义和数据的意义,就“调”出了自称理想的结果,细细一究,却是自相矛盾、漏洞百出,难以自圆其说。有些文献的所谓研究结论,其实根本不需要统计模型就显而易见,利用统计模型充其量只是论证了“吃饱了就不饿”,纯粹是为了模型而模型。有的统计模型,自始至终不断地假设、不断地推演,正如弗里德曼学说所认为的那样“模型的假设是什么无关紧要”,从而实际问题变成了数学推导,应该有实际意义的定量结论变成了抽象的数字,使人难以理解其所表达的意思。在这种情况下,“假设”就成了掩盖事实的遮羞布。有的文献,把简单问题复杂化,明明依靠简单的统计模型就可以说明问题,但为了追求所谓的学术性,偏要搞一大堆符号和公式,非要绕大圈子去建一个复杂的模型,生怕读者轻易地读懂文章的内容而影响其“高大上”。凡此种种,都不是科学求是的精神。
统计模型是统计分析的重要工具,但用在哪里、怎么用大有讲究,千万不能随心所欲。归根结底,统计模型是为定量分析服务的,是辅助性的,而正确理解问题的本质、指标(变量)的含义和数据的意义,科学测度所研究事物的特征,才是根本。我们在利用统计模型开展统计分析研究时,绝不能唯模型是论,不能本末倒置。一定要以“需要、合适、精炼”为原则,把主要功夫花在弄懂问题、读懂指标含义和数据意义上。否则,那就真的成了“所有的统计模型都是错的”,没有可用的了。
真正的高手是化繁为简。在需要的情况下,如何在看清问题和读懂数据之后,用简明、合适的统计模型给出人们容易理解的分析结论,是我们共同追求的目标。特别是在进入大数据时代以后,如何对大数据(尤其是非结构化数据)构建统计模型,无论是思维方式还是具体方法,都是我们需要面对的新挑战。