本书首先对异质信息网络分析的发展以及该领域的一些新颖的数据挖掘任务进行了全面的综述。本书包括两个部分。在第I部分,包括第1、2和9章,它深入全面地总结了该领域的进展。这本书第1章深入介绍了异质信息网络,第2章研究了大多数数据挖掘任务的研究进展。此外,根据发展和趋势,我们在第9章中指出了未来研究方向。在第II部分中,它通过第3-8章中的几类数据挖掘任务说明了异质信息网络分析的特征。
现实环境中的交互和多类型组件构成了相互连接的网络——可以称为信息网络。这些无处不在的信息网络是现代信息基础架构的重要组成部分。近年来,信息网络分析引起了计算机科学、社会科学、物理学等许多领域研究人员的极大关注。特别是,在过去的十年中,信息网络分析已成为数据挖掘、数据库和信息检索领域的主流方向。基本范式是通过从网络数据中挖掘链接关系来发现隐藏模式。信息网络分析还涉及社交网络分析、链接挖掘、图挖掘和网络科学方面的工作。
当前信息网络分析通常基于同质信息网络,这种网络中只有一种类型的对象或链接。示例之一是作者合作网络,该网络仅包含作者和共同作者之间的关系。这些同质信息网络通常是通过简单地忽略对象和链接的异质性或仅考虑一种对象之间的一种链接来简化实际交互系统。但是,大多数实际的交互系统都包含多种类型的交互组件,这些组件可以建模为包含不同类型的对象和链接的异质信息网络。例如,文献数据库(如DBLP)可以构建成一个异质信息网络,其中包括多种类型的对象(例如,论文、作者和会议)和链接关系(例如,作者与论文之间的写/被写,论文和会议之间的发表/发表于)。显然,作者合作网络隐含在异质信息网络中,可以从论文和作者之间的被写/写的关系推导得到。
与同质信息网络相比,异质信息网络可以有效地融合更多的信息,并在对象和链接中包含更丰富的语义,从而形成了数据挖掘的新发展。自2009年异质信息网络的概念首次提出,它很快成为数据挖掘中的一个热门研究主题,并且基于这种网络出现了许多创新的数据挖掘任务。此外,一些独特的分析技术(例如,基于元路径的挖掘)的提出,展现了异质信息网络的优势。特别是,随着大数据时代的到来,异质信息网络成为一种建模和分析大数据中复杂对象及其关系的有效方法。
本书首先对异质信息网络分析的最新发展以及该领域的一些新颖的数据挖掘任务进行了全面的综述。本书从逻辑上分为两个部分。第一部分包括第1、2、9章,深入全面地总结了该领域的最新进展。第1章深入介绍异质信息网络,第2章综述大多数数据挖掘任务的研究进展,此外,根据最新发展和趋势,在第9章中指出了未来的研究方向。在第二部分,通过第3~8章中的几类数据挖掘任务说明了异质信息网络分析的特点。第3章介绍相关性度量,第4章介绍排名和聚类,第5章介绍推荐,第6章介绍融合学习,第7章介绍模式丰富的异质网络挖掘,第8章讨论一些有趣的原型系统。
本书的读者对象是数据挖掘领域(尤其是社交网络分析领域)的工程师和研究人员,同时也适用于人工智能和信息学领域的工程师及研究人员。更广泛地讲,读者对象还包括那些统计学、社会科学、物理学和生物学等其他学科中对社交网络分析感兴趣的学者。本书可用做一些课程的教材,例如数据挖掘、社交网络分析、复杂网络、高级人工智能,适合计算机科学及相关专业的高年级本科生或研究生阅读。建议读者通过第一部分快速了解该领域,然后深入研究第二部分中的数据挖掘任务。
衷心感谢参与本书编写的所有人员。首先,感谢张佳伟博士在第6章所做的贡献,这使得本书更加完整。然后,感谢我们的合作者在异质信息网络方面的工作,他们是孔翔南、孙怡舟、吴斌、李依彤、张志强、刘剑、王然、郑玉艳、郑静、曹晓欢、胡嘉伟、孟晓峰、周翀等。我们也要感谢本书编写过程中的支持者,他们是万欣、陈晓纪、吉余岗、纪厚业、张依丁、肖杨、胡斌斌、韩霄天、陈璞迪、宋礼、Govardhana
K.、MelissaFearon、JenniferMalat等。此外,这项工作获得了中国国家重点基础研究发展计划(973)(No.2013CB329600)、中国国家自然科学基金委员会(No.61375058和61672313)以及美国国家科学基金委(III-1526499)的资助。最后,感谢我们的家人在整个项目中的全力支持。