《Web用户查询日志挖掘与应用》介绍了互联网用户查询日志挖掘及其应用研究领域的主要技术、方法与实证研究成果。全书由3篇共14章内容组成;其中,上篇对搜索引擎用户日志与移动搜索用户日志的研究现状进行了系统的分析,给出了Web用户查询日志挖掘研究框架;中篇介绍了基于不同类型用户日志所开展的实证研究结果,包括大规模Web搜索引擎系统的用户日志、大型期刊数据库的用户日志、移动搜索的用户日志等;作为应用研究,下篇介绍基于用户日志进行查询推荐的方法与舆情监测实例。
随着计算机网络技术的日益成熟与Web信息量的快速增长,用户可以利用网络在任何地点对各类Web检索系统进行信息查询,包括Web搜索引擎、电子商务站点、数字图书馆等。Web检索系统的服务器日志记录了用户与系统交互的整个过程,主要包括用户的访问时间 、所输入的查询词、点击的检索结果及点击时间、移动用户的终端设备信息等。这些日志文件所包含的查询或点击记录的规模一般都很大,尤其是大型商业搜索引擎,它每天能接受几千万甚至上亿次的用户查询。
开展大规模互联网用户查询日志挖掘及其应用研究,可以发现中文用户进行Web查询行为的特征与规律,改善Web检索系统的性能(效果与效率),实现个性化信息服务,发现用户查询主题的变化及其与社会事件之间的关系等方面具有重要的理论与实际意义。
本书介绍了互联网用户查询日志挖掘及其应用研究领域的主要技术、方法与实证研究成果,由3篇共14章内容组成,具体如下。
上篇是对用户查询日志挖掘及其应用研究的概括性分析与总论。首先利用文献计量与社会网络分析等方法,剖析了Web搜索引擎用户日志与移动搜索用户日志的国内外研究热点、主要科研团队等研究现状。然后给出了Web用户查询日志挖掘研究框架,分别针对搜索引擎用户日志和移动搜索用户日志,阐明了使用何种数据分析与挖掘的理论、技术与方法,归纳并总结了目前已有的研究成果,包括:日志挖掘的研究内容、数据集的选择方法、数据预处理的方法、不同地域用户行为的特征与比较、如何应用于系统性能的改善等内容。该框架的建立可以指导一般的Web检索系统、电子商务站点及其类似Web日志挖掘的研究等。上篇由4章内容组成。
王继民,男,北京大学信息管理系书记,系副主任。
前 言 iii
上 篇 Web用户查询日志挖掘研究基础 12
第1章 搜索引擎日志挖掘领域的论文合著网络分析 1
1.1 引言 1
1.2 数据准备 2
1.3 基本统计结果 3
1.4 合著网络的特征 4
1.5 科研合作团队 10
1.6 小结 11
参考文献 12
第2章 移动搜索研究的知识图谱分析 14
2.1 引言 14
2.2 数据分析方法与工具 14
2.3 数据获取与数据预处理 15
2.4 基本统计结果 16
2.5 基于关键词共现的知识图谱分析 16
2.6 基于作者合著的知识图谱分析 19
2.7 小结 22
参考文献 22
第3章 移动搜索用户行为研究进展 24
3.1 引言 24
3.2 移动搜索及其特点 24
3.3 移动搜索用户行为研究框架 26
3.4 移动搜索用户行为实证研究 30
3.5 小结 35
参考文献 35
第4章 Web搜索引擎日志挖掘研究框架 39
4.1 引言 39
4.2 数据集与数据预处理 40
4.3 挖掘的主要内容及其结果 43
4.4 应用于系统性能的改善 47
4.5 小结 50
参考文献 51
中 篇 基于Web用户查询日志的实证研究 55
第5章 搜索引擎用户访问量模型 57
5.1 引言 57
5.2 用户查询与点击日志 58
5.3 基于小波的异常访问检测 59
5.4 时间序列的潜周期模型 61
5.5 用户访问量模型 63
5.6 小结 66
参考文献 67
第6章 中文搜索引擎用户日志分析 68
6.1 引言 68
6.2 数据准备 69
6.3 用户的查询与点击行为分析 70
6.4 不同查询串、用户量和URL数量的特征 75
6.5 小结 76
参考文献 77
第7章 多任务中文Web查询分析 78
7.1 引言 78
7.2 数据集与实验设计 79
7.3 实验结果 80
7.4 讨论 83
7.5 小结 84
参考文献: 84
第8章 搜索引擎用户点击行为分析 86
8.1 引言 86
8.2 用户点击日志 87
8.3 用户点击URL的特征分析 88
8.4 点击URL的局部性与自相似性分析 94
8.5 确定相关查询列表 97
8.6 小结 100
参考文献 100
第9章 中文Web查询演化的主要趋势 102
9.1 引言 102
9.2 数据集 103
9.3 实验设计 105
9.4 实验结果与分析 106
9.5 小结 112
参考文献 113
第10章 高校用户学术期刊数据库检索行为研究 115
10.1 引言 115
10.2 数据来源和基本统计 115
10.3 高校用户的检索策略总体分析 117
10.4 高校用户的检索行为的深度分析 120
10.5 高校用户学术检索策略的影响因素模型 123
10.6 小结 125
参考文献 126
第11章 基于用户日志的移动搜索行为分析 127
11.1 引言 127
11.2 数据集和数据预处理 128
11.3 基本统计结果与分析 128
11.4 我国移动搜索用户的行为特征 132
11.5 小结 132
下 篇 基于Web用户查询日志的应用研究 135
第12章 利用支持向量回归确定相关Web查询 136
12.1 引言 136
12.2 相关研究工作 136
12.3 相关查询的性质与支持向量回归 137
12.4 训练数据与实验结果 140
12.5 小结 142
参考文献 143
第13章 基于用户日志进行查询推荐的方法及系统 145
13.1 引言 145
13.2 查询推荐算法 146
13.3 推荐实施步骤 153
13.4 小结 160
参考文献 160
第14章 基于Web用户查询日志的网络舆情监测 161
14.1 引言 161
14.2 网络舆情监测实例 162
14.3 用户查询与社会事件的关系 164
14.4 小结 168
参考文献 168
附录1. Web搜索引擎日志挖掘示例系统的构建 170
附录2.《2013年中国网民搜索行为研究报告》摘要 180