《面向短文本的主题模型技术》系统地介绍了主题模型紧密相关的基本理论、实用技术及其在微博、弹幕等社交媒体短文本中的应用。
《面向短文本的主题模型技术》首先从主题模型产生的背景、定义、分类和应用入手,概述了主题模型相关技术理论和未来发展趋势,然后分别对面向微博评论的LDA主题模型、面向微博热点话题分析与演化的BTM主题模型、面向弹幕短文本分析与演化的oBTM主题模型进行深入的剖析和验证。
《面向短文本的主题模型技术》学术思想新颖、内容系统、理论性和实用性强,可供从事人工智能、计算机科学技术、软件工程及相关专业的科研人员和高等院校相关专业的师生学习和参考。
微博等社交媒体因其具有话题内容广、传播速度快、实时性好、用户数量庞大的特点,已经成为传播市场经济、时事政治等资讯的重要平台,发挥着舆情发酵中心、事件记录中心、力量集聚中心和谣言粉碎中心的作用。因此,对微博等社交媒体文本进行主题分析,发现其演化趋势,契合新闻舆论监控国家需求,落实习近平总书记在党的十九大报告中提出的新闻舆论工作着力点,“坚持正确舆论导向,高度重视传播手段建设和创新,提高新闻舆论传播力、引导力、影响力、公信力”。
近年来,传统长文本分析方法及其性能取得不断突破的同时也在日趋饱和,其发展正逐渐面临来自对篇幅较短且缺乏上下文信息文本的挑战。短文本的特殊性主要表现在如下三个方面:(1)文体较短。短文本大多在140字以内,而传统主题模型(如PLSA、LDA等)仅适用于长文本,若利用传统的主题模型对短文本建模,会造成严重的数据稀疏问题,使得挖掘到的特征词之间关联性较差,从而影响主题划分效果。(2)语言表述不规范。社交媒体面向大众群体,用词和语法格式没有统一标准,用户更趋向于使用网络热词、表情、符号等来表达自己的想法,这就导致短文本中充斥着大量的噪声数据,给主题划分造成了一定的困难。(3)文本形式的特殊性。在形式上,以微博短文本为例,大多含有话题标签,话题标签中的词能起到概括该微博内容的作用,这些特殊形式的文本将影响主题划分效果。因此,如何快速准确地从短文本中挖掘和发现潜在有用的主题特征词,获得短文本主题随时间变化的演化规律,已经成为短文本分析与演化的关键问题。
作者多年来一直从事数据挖掘、自然语言处理、网络舆情分析等领域的研究工作。近5年来,作者及科研团队针对现有传统面向社交媒体短文本的主题模型聚类方法语义分析能力、主题划分效果不佳、热点话题演化准确率不高等重点和难点问题,融合聚类等数据挖掘技术,开展短文本主题情感分析和特征提取方法、面向评论短文本分析与演化和面向热点话题发现与演化的主题模型研究,有望突破传统主题模型LDA、BTM和oBTM的局限,形成新的利用主题模型和聚类技术分析社交媒体短文本的方案。上述研究成果对于融合主题模型的聚类方法在多元化新媒体短文本的应用推广具有理论支撑和实践价值:同时,也为网络舆情监控以及应急响应策略制定提供决策和支持,对维护社会稳定、节约社会管理资源,具有重要的应用价值。
当前,面向短文本的主题模型技术仍处于发展阶段,国内尚缺少较为全面和系统地介绍主题模型技术的书籍。本书是在上述科学研究和技术开发工作基础上撰写而成,是笔者及科研团队在面向微博、弹幕等社交媒体分析及演化的主题模型研究成果的系统总结。因此,希望本书的出版能够为主题模型技术在社交媒体短文本及其他领域的应用提供借鉴与帮助。
吴迪,女,1984年12月出生,河北肃宁人,工学博士。现为河北工程大学副教授,软件工程系主任,首批“全国党建工作样板支部”书记,校级“双带头人”,硕士生导师,河北安防报警网络有限公司技术顾问和北京大学邯郸创新研究院专家。近年来主持或主研***、省部级教学科研项目20余项,发表SCI、EI检索论文20余篇,出版教材4部,授权国家发明专利2项,获河北省科技进步奖三等奖和邯郸市科技进步奖三等奖各1项。目前主要从事数据挖掘、自然语言处理方面的教学与研究工作。
第一章主题模型概述第二章面向微博评论的LDA主题模型第三章对面向微博热点话题分析的BTM主题模型第四章面向微博热点话题演化的OBTM主题模型第五章面向弹幕短文本分析的OBTM主题模型第六章面向弹幕短文本演化的OBTM主题模型