徐小良:
接下来我们请出的是北京大学计算机研究院的万小军教授,万教授是北京大学语言计算和互联网挖掘研究室的负责人,目前主要从事语义计算、文本生成与社交媒体挖掘方面的研究工作,他给我们介绍的是《面向社交媒体的情感分析技术和应用》,同时他会介绍他们在这些方面取得的研究成果,掌声有请万教授!
万小军:
大家上午好!
我是学计算机的,是技术宅男,刚才听到市场行业各种大咖的演讲,我觉得他们的PPT做的很漂亮,宣传片做的很漂亮。因为是技术宅男,所以更加侧重技术,在PPT的设计方面可能没有太多的美化,我们还是具体来探讨一下背后的技术,我要讲的是情感分析的关键技术。
互联网让我们知道大数据,数据主要有两种类型,一种是事实型的,比如说维基百科和新闻,因为它表达的是客观的事实。另一种是社交媒体网站上的数据,这些文本都是用户生成文本,在用户生成文本中,这里面的用户,在文本中会表达针对各种各样的观点。为什么社交媒体上有很大的商业价值,主要是社交媒体上有海量的观点文本。通过观点文本的挖掘和分析,我们可以获得海量用户针对某一个特定对象,比如说针对一个产品的喜好和业务,我们不需要再做一些调查、提一些问卷、打电话、询问,当然你的样本量很小。所以我们认为海量的关键信息是社交媒体信息的核心价值之一,关键数据是社交媒体最重要的特色。
我们怎么样获取关键信息,从产品评论中或者从贴吧的贴子中,都可以看到这个人的分析,知道这个作者他对某个对象表达了特定的态度。我们不能全部用人工分析,因为工作量太大。我们怎么样用计算机自动获取这样的关键信息,因为计算机的计算能力很强,它可以一天24小时不停的工作,它可以替代人来做这件事情。这里面的核心技术,就是我们的情感分析和观点挖掘技术,这也是我们从2004年之后逐步发展起来的一门技术,在自然语言里面处理很火的技术。
传统的自然语言处理主要是研究句法和语义分析,对一个句子和文本了解它的主语和谓语是什么,我们需要用情感分析和观点挖掘技术,才能获得这样的信息。情感分析和观点挖掘,它有几种不同的子类技术,最直接是褒贬的倾向分析,比如说文本、贴吧的贴子或者是博客,可以分为整体的倾向是褒义的、贬义的还是中性的。比如说把一个微博的帖子分为这样七类,他可能表现其他的情绪,或者是厌恶的情绪或者是愤怒的情绪等等。
还有就是观点抽取技术,不光要判断一个文本整体的倾向性。比如说这是有人对《港囧》发表的一篇微博,整体的倾向是贬义的。但是在这个文本中对不同的对象进行了评价,我用一个红色的圆圈标识出来,对片子有评价,对徐峥和赵薇、包贝尔都有评价,这是非常细腻的情感分析技术。
主要的方法,当然这里面有很多不同的方法,计算机领域的人有很多在研究这样的方法。主要有技术规则的方法,可以人工写一些模板,写一些规则,然后来判断我们这样的文本情绪,褒贬倾向。另外一个是机器学习的方法,人工标注大量的数据,较给机器学习的模型,让他学习到分类器或者是观点抽取的模型,用这样的模型对海量的位置数据可以快速的做我们的情感分析和观点的抽取。
这几年发展的比较快的技术,事实上技术深度的学习方法,也是我们基于机器学习方法的特例。深度学习这几年特别火,这也是有很多人研究的。整体的情感分析技术水平,这个技术要根据不同的领域和不同的数据来决定。
比如说针对淘宝上的产品评论做的效果好一些,针对微博上的评论做的效果差一些。整体来讲效果是70%到90%之间,针对不同的数据会有不同的结果。所以说不能笼统的说情感分析达到了90%或者说达到了70%,这是不对的,我们要给出特定的领域和特定的数据,才能说出我们情感分析整体的效果。
情感分析的应用其实有很多,大家有做市场研究的知道的比我多。我搜集了一些,也拍脑袋想了一些,有用户画像与精准营销、产品比较与推荐、个人与机构声誉分析、电视节目满意度分析、用户反馈分析、互联网舆情分析语危机公关、未来的预测,你要预测一个电影票房,预测奥斯卡奖都是可以预测的。预测里面有一个重要的指标,就是情感分析的结果,把情感分析的数据,结合其他的线索,我们可以准确的预测到很多方面的情况。
举例来说,这是关于IBM软件的帖子,IBM研究院认为现在我们在做在线营销效果不太好,主要还是做一些简单的消费者年龄、性别,按这样简单的分类来做。实际上真正重要的是影响人们购买需求,我们要找到用户深层的特写,包括他们的人格特质、价值观和需求,我们需要利用情感分析的技术,才能很好的找到他们的语音习惯和情感色彩,这样可以刻划他们的性格,这样我们做精准营销就可以更加精准了。
这个图显示对奥巴马帖子分析的结果,越往上红色部分代表的是越正面,越往下代表越负面,这是随着时间演化的图。我们可以看到不同的时间点,网民对于奥巴马的评价可能是不一样的,有的时候比较正面一点,有的时候比较负面一点,这个可以分析奥巴马的支持率,通过这样的技术手段可以分析。
在产品的比较和推荐中,我们也可以做出这样的系统,我们可以对汽车的产品评论抓下来做一个分析,分析我们评论中针对汽车是哪个方面,首先是评价,是满意,还是不满意。最左侧是对于汽车的油耗、安全性、空间、动力各个方面做了统计分析,满意的有多少条,不满意的有多少条,这样对购车来讲很方便。如果你关注的是油耗,你看一下大家对油耗是不是满意,这个可以很方便帮助大家购物,因为它专门针对汽车评论来做,这个领域比较窄,所以它做的效果比较好。
雅虎早期推出人物搜索,也可以对网上某一个人物的评论进行分析,分析出针对这个人物的好评或者是差评,这是针对周杰伦一些评论的帖子,它可以分析出帖子中对周杰伦好评的有多少条,差评的有多少条。比如说周杰伦是一个自恋的男生,这一条分析的结果是差评,因为这里面有自恋,可能是一个贬义词,总体来说会基于情感分析的结果会得出关于某个人物的结果。
这是电视节目满意度的调查,也通过了情感分析的技术,当然还有其他的因素来做这样的事情,我们也参与到其中一届满意度的调查。高校微实力排行榜结果的分析,也会利用情感分析的结果,对高校在微信或者是微博上的互动,以及对它的评价来做一些分析。
我们需要有微博爬虫或者是微信爬虫,我们需要有观点挖掘工具。微博用户的情绪检测,比如说我们从这个图中,这是李开复的微博,分析他每一条微博的情绪,他是愤怒,还是高兴,还是悲伤,还是忧愁,最后可以知道李开复整体的情绪,哪种情绪最多,哪种情绪占的比较少一点。我们可以知道李开复在什么时候它的情绪有些波动,它遇到的事情会导致它的情绪有波动。
微博评论的褒贬分析,然后分析每一条评论的褒奖,也做出这样的环状图来,得到一个比例的结果。当然我们可以把最重要的褒义、贬义的评论列出来作为代表性的评论。
在微博的观点抽取上,我们也做了一个工具,我们把微博评论都抓下来,把主要的评价对象抓下来,然后再分析我们用户这些帖子,针对每一个评价对象的评价结果。比如说这是毕福剑的一条微博,很多人会发表评论,这里面我们抽到很多相关的评价对象,比如说毕福剑,类似这样的评价对象,我们最终对每一个对象有评价的结果进行分析。
用户立场分析,我们要分析针对给定的对象,我们要分析一个微博的用户,针对这个它的立场是什么,是支持,还是反对。这个跟前面的情感分析有点不一样,比如说有一个人,用户发表了一个帖子崔永元我支持你,我们分析这个帖子对转基因的态度,他是支持转基因,还是反对转基因,他的立场是什么。我们需要分析崔永元属于哪个派别,农业部方舟子又是哪个派别,我们可以得到这个用户的立场,这个也是挺有用的技术。
最后一个技术是用户行动检测,它不同于情感分析,有的时候我们需要判断,微博是不是包含行动信息。比如说光盘行动号召,我们要判断一个微博中,是不是包含跟光盘行动号召直接相关的行动,这里有两个例子,蓝色代表的是有行动的,它中午吃光了一大盘炒饭,这是光盘行动,我们把行动信息和关联信息区别开来。
最终结合我们的技术也做了微博可视化分析平台,把各种情感分析、用户的各种属性分析,以及关键词的分析都做在同一个界面上,可以很方便的看到各个方面的情况,这个是放大之后。这是微博转发的图,这是针对透明计算帖子的转发,当时转发特别火,有一些比较重要的转发节点,从图上可以看的比较清楚,谢谢大家。
提问:
我想问一下,你最大的处理量和最小的处理量,告诉我一个区间范围,曾经用语义文本分析的模型。
万小军:
应该有几十万都可以处理,你让计算机跑,如果数据量大用多台计算机都是可以的,它跟算法是没有关系的,我们用多台服务器都是可以的。但是有的技术不能实时的反馈结果,要等一段时间才能反馈结果。
提问:
因为我觉得语义分析是最难的一件事,你做明星的微博分析,最小数据量处理的是多少?
万小军:
一条都可以处理。
提问:
一条就没有意义了。
万小军:
我们从算法的角度考虑,它需要处理一条,还是需要处理十万条、一千万条,只要用户把数据拿过来都可以处理,对于算法来讲没有任何的差别,一条也好,几十万条也好都是一个算法,只不过放在不同的服务器上,让服务器多跑一点时间。
提问:
如果这样的话,你最多处理的是几十万条,你处理的时间需要多长时间,从原数据到出来的时候,需要大概的时长是多少?
万小军:
一台机器跑的话可能得一天,如果想快用多台机器,把数据分块就可以了。
提问:
万教授你好,我是贝恩公司的施雷,你刚才讲到有开发微博和微信的爬虫。我想问一下,除了微博和微信以外,其他哪些平台你们也有检测,包括国外和国内。
万小军:
比如说贴吧和每个网站的评论,其实最难的是微博和微信,我们自己从外围想办法爬,这两个是最难的,因为微信没有开放的接口,把这两个解决了,其他的很简单。因为API有很多限制,所以我们没有用API,比如说每天限制你爬多少条,不能满足这样的需求,所以我们会模拟手机浏览的过程,从外围去爬这样的技术,没有采用它的API,因为有很多限制。
徐小良:
谢谢万教授。在市场研究行业近三十年的历程里面,其实有不少的前辈曾经做过我们自身拥有的市场研究专业技术和商业生意结合的实践,有一些失败的案例,也有一些成功的案例。