当前位置: 首页 » 资讯 » 行业资讯 » 正文

网络数据挖掘应用与限制 北京师范大学 张洪忠

放大字体  缩小字体 发布日期:2015-11-20  作者:17小编整理  浏览次数:663
核心提示:徐小良:接下来我们有请张洪忠教授,他是北京师范大学新闻传播学院的副院长,传播效果实验室主任,他给我们演讲的题目是《网络数
 

    徐小良:
    接下来我们有请张洪忠教授,他是北京师范大学新闻传播学院的副院长,传播效果实验室主任,他给我们演讲的题目是《网络数据挖掘应用和限制》,大家掌声欢迎!
    
    张洪忠:
    非常感谢刘德寰教授的邀请,能够到这里来跟大家一起交流。前面的专家、学者,他们从信息技术的角度探讨问题。今天我想从社会科学角度来看待大数据。
    今天我们所说的很多大数据,其实是基于网络发展而产生兴起的。真正的大数据,比如说人口数据等等,真正的大数据之前都存在,但是在网络技术之前没有把它提出来。今天我想讲《网络技术的应用于限制》。
    我们所说的网络数据可以分为五种类型,今天能够从互联网上拿到的数据,一种是传统的调查,我们有三种方式获得样本,我们以导流量的方式获得样本。我们直接从淘宝和微博里面入口端导流量,这个流量是很大的。但是它有一个很大的问题,我们的量大、速度很快,但是我们不知道总体在哪里,我们没有推断性,它是非概念的样本。刚好这几周我正在上研究方法的课,讲抽样和概念的问题,我让同学们把互联网上的评论找出来,各个公司所发布的数据90%是非概念的大数据,号称大数据,其实也不是大数据,是没有推断性的。
    虽然这个数据很大,我们经常导流量样本,但是都是非概念的,它没有任何的推断性,只能说样本怎么样,不能说网民怎么样,也不能说别人怎么样。
    从样本库中获得数据,样本库里面号称有七百万的样本库,通过邮件来抽样得到,这些仅仅可以得到总体,但是总体是六百万或者是七百万推断。但是总体本身的质量怎么样,样本库里面,比较好的方法,我们是做追踪的研究、比较的研究。但是我们对总体的推断,其实也是有效的。
    我们通过滚雪球的方式,我们所谓的互联网数据,我们从互联网的调查来获得样本。网络的点击量,我们通过PV、UV值,通过这些来得到数据。比如说点击量怎么样,自媒体的排行榜,其实就是PV、UV的点击量。但是我们也是基于某一个网站,我们不知道蓝海在什么地方。
    社交媒体数据的应用,我们通过社交媒体来挖掘社会关系,但是这种社交媒体的挖掘,我们仅仅是挖掘就算了,我们不知道怎么分析它。比如说长安马自达,我们具体做的时候要画圈,是哪些样本,这些样本会不会购买马自达,怎么购买,我们一个一个筛出来,这就是社交媒体数据的挖掘。
    我们网民语言数据,微博和微信里面、新闻里面、评论、论坛信息,我们一般有两种方法,我们采用的是传统的内容分析的编码方法。第二种是自然语言的处理,我们通过数据,比如说我们做腾讯汽车指数的时候,2012年给我们一个评论数量有一千多万字,一台机器是拉不动的。传统的方法进行概念的抽样,进行分析和编码,然后形成整个图谱进行分析。
    第二种是情绪分析,但是自然语言的处理,有一个很重要的问题,自然语言的处理,我始终是怀疑,我们从来不知道我们的情绪是怎么样的,恐惧怎么样,愤怒怎么样,高兴怎么样。我们不知道它的解释性有多大。所以我们也曾经这样做过一个测试,我们做自然语言处理以后,我们做人工编码进行人工的内容分析,我们发现其实有时候我们做结果比较接近,有时候差异是很大的,自然语言处理的时候我们面临一个很大的问题,这是摇号的情绪分析。
    网页内容的信息数据,新闻网站、垂直网站发布的内容,我们把内容进行分析。第一种也是我们采用内容分析传统的方法进行编码、处理、抽样,第二种也是自然语言的处理,我们做关键词情绪的分析等等。
    也就是说,到目前我们所说的互联网数据大概有五种数据的来源,这种来源里面,它各有各的缺陷,每种数据它的解释都是有边界的。网络数据的应用传播,这些都是常用的案例。我们要解释一些相关性,我们通过贴标签找到客户,我们的需求,做预测等等,通过相关性的检测进行分析,对时间纬度、空间纬度进行分析。
    比如说腾讯汽车频道,当时我们团队在2012年3月份,我们把腾讯所有的频道十多万条的信息,包括它的PV、UV、网址链接全部发给我们实验室,我们把它架构成一个模型,我们做一个腾讯汽车指数,我们每个月会发布,这个指数是总的指数。我们还做了具体的细分市场的分析。比如说我们的排名,每一个品牌,每一款车,每个月可能有几千张图表,它发布的时候只发布前十名的图表,这是简单的应用。
    我们面临这样的应用,我们说网络的大数据,我想跟大家分享的是,我们所说的目前所见到的网络数据,它存在哪些问题,我们在应用的时候要反思。这是我们做网络数据分析的时候面临的理论模型问题。我们提出网络数据的时候美国的连线杂志提出一个概念叫第四范式,我们以前远古的时候钻木取火,我们有神农尝百草,通过亲身的体验来感知这个世界,这是第一范式。
    第二范式是我们发现有规律性的东西,于是有理论范式,由已知推测未知。后来随着计算机科学的发展,我们到了第三范式,就是仿真科学的发展,我们通过仿真模拟和认识世界。在08年的时候,美国的连线杂志提出数据洪流成为第四范式,也就是说这个时候我们不需要模拟,也不需要去理论它,我们直接从数据里面探索世界的本身,这是第四范式的产生。所有的理论假设已经不需要了,我们直接从总体中得到一种结果。所以这里面提出这么一个问题,这个问题的提出对我们是极大的误导,为什么是误导呢?
    我们总体的问题,我们总是说抓数据是总体,这其实是误导,我前面讲了有五种来源,其实这些数据都是有缺陷的,网络上的数据,它不是真正的大数据,它是伪大数据的概念。即使在腾讯,它能够推总体吗?今天我们同样在犯当年的错误,我们拿到一个互联网数据,我们就说大数据,这是对我们极大的误差,因为我们实验室也经常做,我们在2014年连续做了三个月,我们把互联网的数据,我们做了数据分析,再做同样的抽样比较,我们发现差距有时候是很大的,所以总体性的问题我们要特别注意。
    因果关系的问题也是这样的,我们只需要相关,不需要因果,这是极大的偏差,效率性的问题,我们都知道做数据,数据清理是很大的问题,你清理到什么程度,怎么个清理水平,这里面又是一个问题,在大数据里面这些都没有交代清楚。以及线上线下的差异问题,我们任何的数据都是有边界的,包括大数据,数据背后解释也是需要分析的,我们需要有第二范式和第三范式结合的探讨才是有效的。
    这是腾讯指数,这是所谓的频道,每个频道下面有很多数据,当时我们怎么做,我们众多的数据来源,一大堆数据堆在实验室,我们怎么取舍这些数据,我们怎么做架构这些数据,我们用了TPB模型,一个人在互联网上要产生购物的行为,学术界就开始研究,为什么会产生购物,有哪些纬度、哪些指标,每一种指标的权重有多大。我们把这个模型再变形因为,我们再做出模型 提取指数,这就是我们做的腾指指数。
    大数据与模型的关系,砖厂与建筑师的关系,我经常说互联网产生了很多数据,但是这个数据就像我们生产的砖厂一样,生产了很多的砖,但是这个砖不是房子,我们要用模型来架构,我们要用砖,我们需要建筑师,我们要把它建成一个教堂,还是建成体育馆,还是建成一座酒店,这就是同样需要模型的架构极其的重要。我们所有的数据分析,在一个很浅显的层面,我们对社会没有穿透力,而且数据的解释力也是极其有限的。肆意我们在网络快速发展的时候,其实现在更缺乏的是设计图纸的建筑师,我们更加缺乏这些,我就跟大家分享这些,谢谢大家。

 
 
[ 资讯搜索 ]  [ 加入收藏 ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]

 

 
推荐视频
推荐资讯
点击排行
 
分享按钮