本书是Introduction to Computational Biology的中文译著,本书的意图是针对有数学技能的人介绍令人着迷的生物数据和问题,并建立更实际的生物数学的基础。
本书共分15章,其中第1章介绍分子生物学的基本常识,第2—4章介绍限制图谱和多重图谱,第5、6章研究克隆和克隆图谱,第7章讨论DNA序列相关的话题,第8—11章是共同模式下序列比较问题,第12章涉及序列中模式计数的统计问题,第13章叙述RNA二级结构的数学化论述,第14章给出有关序列的进化历史,最后第15章给出某些关键文献的原始出处.本书结构完整,内容更新、更全面。
本书适合高等院校数学和生物专业的高年级大学生、研究生和教师阅读参考,也适合科研单位的研究人员参考。
更多科学出版社服务,请扫码获取。
20世纪80年代初始,国内对“生物数学”发生兴趣的人越来越多,目前从事
生物数学研究.学习生物数学的人数之多已居世界之首。为了加强交流,在“中国生物数学学会”和科学出版社的共同努力下,组织了本套《生物数学书》,宗旨是促进数学与生物学的相互渗透,促进数学在生物学中的应用,带动生物数学研究的发展,培养国内生物数学人才。
丛书涵盖学术专著.教材、科普及译著,具体包括:
①生物数学、生物统计教材;
⑦数学在生物学中的应用方法;
③生物建模;
④生态学中数学模型的研究与使用等。
本丛书的读者对象是数学和生物学相关专业高年级大学生、研究生、高校教师和科研工作者。
目录
《生物数学丛书》序
前言
数学符号
第0章 引言 1
0.1 分子生物学 2
0.2 数学, 统计和计算机科学 3
第1章 分子生物学一些知识 5
1.1 DNA 和蛋白 5
1.1.1 双螺旋结构 6
1.2 中心定理 7
1.3 遗传密码 8
1.4 转化RNA 和蛋白序列 12
1.5 基因不简单 14
1.5.1 开始与停止 14
1.5.2 基因表达的控制 15
1.5.3 割裂基因 15
1.5.4 跳跃基因 16
1.6 生物化学 16
问题 23
第2章 限制图谱 25
2.1 引言 25
2.2 图 27
2.3 区间图 28
2.4 片段大小的度量 32
问题 34
第3章 多重图谱 35
3.1 双消化问题 36
3.1.1 双消化问题的多重解 37
3.2 多重解分类 40
3.2.1 反射性 41
3.2.2 重叠等价 41
3.2.3 重叠尺寸等价 43
3.2.4 更多的图论知识 44
3.2.5 从一条路到另一条路 45
3.2.6 限制图谱及边界块图 47
3.2.7 限制图谱的盒变换 49
3.2.8 一个例子 51
问题 52
第4章 求解DDP 的算法 54
4.1 算法和复杂性 54
4.2 DDP 是NP 完全的 55
4.3 解DDP 的方法 56
4.3.1 整数规划 56
4.3.2 划分问题 57
4.3.3 TSP 58
4.4 模拟退火法:TSP 和DDP 58
4.4.1 模拟退火法 58
4.4.2 TSP 62
4.4.3 DDP 63
4.4.4 环状图谱 65
4.5 用真实数据作图 65
4.5.1 使数据符合图 66
4.5.2 图谱算法 67
问题 67
第5章 克隆与克隆文库 69
5.1 有限的随机克隆数 70
5.2 完全消化的文库 71
5.3 部分消化的文库 73
5.3.1 可克隆基的组分 73
5.3.2 采样、方法1 76
5.3.3 设计部分消化文库 77
5.3.4 Poisson 近似 77
5.3.5 获得所有片段 78
5.3.6 最大表达度 80
5.4 每个微生物中的基因组 81
问题 81
第6章 物理基因组图谱:海洋、岛屿和锚 83
6.1 用指纹制作图谱 84
6.1.1 海洋和岛屿 84
6.1.2 分小与控制 90
6.1.3 两个先驱实验 91
6.1.4 啤酒酵母 91
6.1.5 大肠杆菌 92
6.1.6 计算指纹模式 93
6.2 用锚制作图谱 97
6.2.1 海洋、岛和锚 97
6.2.2 克隆与锚的对偶性 102
6.3 克隆重叠的概述 104
6.4 综合 106
问题 109
第7章 序列装配 111
7.1 鸟枪测序法 111
7.1.1 SSP 是NP 完全的 112
7.1.2 贪婪算法的解至多是4 倍最优解 113
7.1.3 实践中的装配 118
7.1.4 序列精度 119
7.1.5 预期的进展 121
7.2 用杂交法测序 122
7.2.1 其他SBH 设计 127
7.3 重访鸟枪测序法 129
问题 131
第8章 数据库和快速序列装配 133
8.1 DNA 和蛋白序列数据库 134
8.1.1 序列数据库文件中条款的描述 134
8.1.2 简单序列数据文件 135
8.1.3 统计小结 137
8.2 序列的树表现 138
8.3 序列的切细 139
8.3.1 切细表 139
8.3.2 用线性时间切细 140
8.3.3 切细和链接 141
8.4 序列中的重复 141
8.5 用切细进行序列比较 142
8.6 至多有l 个失配的序列比较 146
8.7 用统计量进行序列比较 149
问题 150
第9章 动态规划、两个序列比对 151
9.1 比对的个数 153
9.2 网络中最短和最长路 157
9.3 全局距离比对 159
9.3.1 插入删除函数 161
9.3.2 依赖距离的权重 163
9.4 全局相似比对 164
9.5 将一个序列吻合另一个序列 166
9.6 局部比对和丛 168
9.6.1 自身比较 172
9.6.2 衔接重复 172
9.7 线性空间算法 174
9.8 回溯 176
9.9 倒位 179
9.10 图谱比对 183
9.11 参数序列比较 186
9.11.1 一维参数集合 188
9.11.2 进入二维 190
问题 192
第10章 多重序列比对 195
10.1 囊性纤维化基因 195
10.2 r 维的动态规划 197
10.2.1 减小容积 198
10.3 加权平均序列 199
10.3.1 比对的比对 202
10.3.2 序列的重心 202
10.4 轮廓分析 203
10.4.1 统计意义 204
10.5 通过隐Markov 模型比对 205
10.6 一致词分析 207
10.6.1 词分析 208
10.6.2 一致比对 209
10.6.3 更复杂的打分 210
问题 210
第11章 序列比对用到的概率和统计 212
11.1 全局比对 212
11.1.1 给定的比对 213
11.1.2 未知比对 213
11.1.3 比对打分的线性增长 214
11.1.4 Azuma-Hoe?ding 引理 215
11.1.5 对平均值的大偏差 216
11.1.6 关于二项式分布的大偏差 218
11.2 局部比对 220
11.2.1 大数定律 220
11.3 极值分布 230
11.4 Poisson 近似的Chen-Stein 方法 232
11.5 Poisson 近似和长匹配 234
11.5.1 连续正面的投币 234
11.5.2 序列间的准确匹配 236
11.5.3 近似匹配 241
11.6 带有打分的序列比对 245
11.6.1 相位转移 246
11.6.2 实用的p 值 249
问题 251
第12章 有关序列模式的概率与统计 254
12.1 中心极限定理 255
12.1.1 广义词 261
12.1.2 估计概率 261
12.2 非重叠模式统计 262
12.2.1 一个模式的更新理论 262
12.2.2 Li 方法与多重模式 265
12.3 Poisson 近似 267
12.4 位点分布 270
12.4.1 内部位点距离 270
问题 271
第13章 RNA 二级结构 273
13.1 组合数学 274
13.1.1 计算更多的形状 277
13.2 最小自由能结构 279
13.2.1 减少发卡计算时间 281
13.2.2 线性不稳定函数 282
13.2.3 多分支环 283
13.3 一致折叠 284
问题 286
第14章 树和序列 287
14.1 树 287
14.1.1 分裂 288
14.1.2 树的度量 292
14.2 距离 294
14.2.1 可加树 294
14.2.2 超度量树 298
14.2.3 非可加距离 299
14.3 简约算法 301
14.4 极大似然树 307
14.4.1 连续时间Markov 链 307
14.4.2 估计变化率 309
14.4.3 似然性与树 311
问题 314
第15章 来源与展望 316
15.1 分子生物学 316
15.2 物理图谱和克隆文库 316
15.3 序列装配 317
15.4 序列比较 318
15.4.1 数据库和快速序列分析 318
15.4.2 对两个序列的动态规划方法 319
15.4.3 多重序列比对 320
15.5 概率和统计 320
15.5.1 序列比对 321
15.5.2 序列模式 322
15.6 RNA 二级结构 322
15.7 树和序列 323
参考文献 324
附录 问题解答和提示 335
索引 352
第1章 分子生物学一些知识
本章的目的是提供分子生物学,物别是DNA和蛋白质序列的一个简单的导引。理想的是,读者已学过分子生物学或分子化学入门教程,他们可直接读第2章。入门教程通常超过1000页,这里我们仅给出几个基本点。为了启发,在后面的一些章节将介绍更多的生物学知识。
生物学最基本的问题之一是理解遗传。在1865年,Mendel给出遗传的抽象、本质的数学模型,其中,遗传的基本单位是基因。Mendel的工作一直被遗忘,直到1900年(20世纪初)才被拾起,并在数学上进行了广泛的研究,但仍不知道基因的本质。仅仅在1944年才知道了基因由DNA构成。1953年,James Watson和FrancisCrick提出了DNA现在著名的双螺旋结构。双螺旋给出了一个DNA分子是怎样被分开,并变成两个同样的DNA分子的物理模型。在他们的文章中出现了科学中最著名的一句话:“我们提出的特定的配对直接蕴涵遗传物质可能的复制机制,这一点逃不出我们的注意”。复制机制是现代遗传学的基础。在Mendel模型中基因是抽象的,Watson和Crick模型则描述了基因本身,提供了对遗传的深入理解。下面讨论大分子的一般性质,包括怎样由DNA生成RNA和蛋白。然后,更多地给出对这些性质来说是基本的生物化学的某些细节。
……