本书与以往统计学中的概率论略有不同,添加了一些复杂数据类型的概率基础知识和模拟计算中的相关概率知识。具体安排如下所述。本书共分6章。第1章为概率与计数,基本内容是随机事件、概率空间、计数方法、概率的确定方法。第2章为条件概率,基本内容是条件概率与乘法公式、事件的独立性、全概率公式与贝叶斯公式。第3章为随机变量,基本内容是随机变量及其分布函数、随机变量的分类、二维随机向量、随机变量的独立性、随机变量函数的分布。第4章为常用的概率分布,基本内容是常用的离散型随机变量、常用的连续型随机变量、随机数的产生。第5章为随机变量的数字特征,基本内容是数学期望、方差和协方差、矩和矩母函数、条件期望。第6章为不等式和极限定理,基本内容是概率不等式、大数定律及其应用、中心极限定理。
总序
数据科学与大数据技术本科专业的建设实际上是一场教育革命,是受业界需求驱动形成的,其理论基础、课程体系和知识结构框架均处于探索阶段。但有一点非常明确,“实践”是学习该专业最重要、最高效的方式,这也成为本套教材——“普通高等教育数据科学与大数据技术专业‘十三五’规划教材”的编写导向。这不仅需要学生夯实统计学、应用数学以及计算机科学等学科的基础,也需要学生具备大数据所服务行业的相关知识积累和实践经验。只有掌握多学科融会贯通的能力,才能真正成为一个有思想的数据科学家。
为了探索学科人才培养模式,北京大学、中国人民大学、中国科学院大学、中央财经大学和首都经济贸易大学在2014年共同搭建了“大数据分析硕士”培养协同创新平台。在不断的摸索中,一套科学完整的课程体系逐渐建立起来。随后,相关课程也在全国多所院校中实施,成为我国大数据技术高端人才培养体系的蓝本。
为紧跟科学技术的发展潮流,引领中国大数据理论、技术、方法与应用,在北京大数据协会及相关机构的组织下,开展了教材编写的大量前期国内外调研工作,并于2017年6月在云南举办了“第一届全国数据科学与大数据技术本科专业建设研讨会”,展示了调研成果,为中国数据科学与大数据技术人才培养奠定了基础。为进一步厘清该专业的培养方案和课程内容建设的目标和路径,从培养方案、课程体系、培养过程、教材建设等方面深入交流探讨,于2019年5月在北京召开了“第二届全国数据科学与大数据技术本科专业建设研讨会”,会上正式发布了本套系列教材。
本套教材凝聚了全国相关院校数据科学与大数据技术领域著名专家和学者的智慧和力量。在教材编写过程中更加关注的是数据分析思想的引导,体现数据分析的艺术,侧重于从数据和案例出发,厘清数据分析的基本思路,这样能够让读者更好地理解各种假设、公式、定理和模型背后的逻辑。为了结合现实需求,每本教材均配套相关的Python编程代码,让读者在练中学、学中练的过程中夯实基础,积累经验,提升竞争力。尽管编写人员投入了大量的心血,但教材内容还需不断突破和完善,希望能够得到各位专家和同行的批评指正,共同实现此套教材满足教学需求的编写宗旨。
本套系列教材是集体创作的成果。感谢编委会成员和其他编写人员的辛勤付出,以及北京大学出版社和首都经济贸易大学出版社的大力支持。希望此套教材能对广大教师和学生及各数据科学领域的从业人员具有重要的参考价值。
北京大数据协会会长
2019年9月
王学钦,博士,中山大学数学学院和中山医学院教授,
中山大学统计学科带头人,数学学院院长助理,中山大学华
南统计科学研究中心执行主任等。
赵鹏,2008年12月毕业于兰州大学获得理学博士学
位。江苏师范大学数学与统计学院教授、教务处处长,全国
工业统计教学研究会副秘书长、常务理事、青年统计学家协
会副会长,中国现场统计研究会大数据统计分会副理事长。
目录
1概率与计数(1)
11随机事件及其运算(1)
111随机现象与随机试验(1)
112样本空间与随机事件(2)
113事件间的关系及运算(3)
12概率空间(7)
121概率空间(7)
122概率的常用性质(9)
123概率的连续性(13)
13计数方法(15)
131两个计数原理(16)
132排列与组合(16)
133二项式系数与多项式系数(18)
134例题(20)
14概率的确定方法(25)
141频率方法(26)
142古典概型(27)
143几何概型(33)
144主观概率(36)
习题(37)
2条件概率(41)
21条件概率与乘法公式(42)
211条件概率的定义(42)
212条件概率的性质(44)
213乘法公式(46)
22事件的独立性(48)
221两个事件的独立性(48)
222多个事件的独立性(51)
223事件的条件独立性(56)
23全概率公式与贝叶斯公式(58)
231全概率公式(58)
232贝叶斯公式(61)
233全概率公式与贝叶斯公式的条件形式(64)
习题(68)
3随机变量(71)
31随机变量及其分布函数(71)
311随机变量(71)
312分布函数(73)
32随机变量的分类(75)
321离散型随机变量及其分布律(75)
322连续型随机变量及其概率密度(76)
323非离散非连续型随机变量及其分布(79)
33二维随机向量(81)
331联合分布与边缘分布(81)
332二维离散型随机向量(83)
333二维连续型随机向量(86)
34随机变量的独立性(89)
35随机变量函数的分布(93)
351离散型随机变量函数的分布(93)
352连续型随机变量函数的分布(95)
习题(103)
4常用的概率分布(109)
41常用的离散型随机变量(109)
4110-1分布(两点分布)(109)
412二项分布(109)
413泊松(Poisson)分布(111)
414几何分布(113)
415超几何分布(114)
42常用的连续型随机变量(115)
421均匀分布(115)
422指数分布(116)
423正态分布(117)
424二维均匀分布(121)
425二维正态分布(123)
43随机数的产生(124)
习题(127)
5随机变量的数字特征(129)
51数学期望(129)
52方差和协方差(135)
53矩和矩母函数(141)
54条件期望(147)
习题(153)
6不等式和极限定理(155)
61概率不等式(155)
62大数定律(157)
63大数定律的应用(159)
631抛硬币试验(159)
632直方图近似概率密度函数(159)
633蒙特卡洛积分(160)
64中心极限定理(160)
习题(165)
参考文献(167)
习题答案(168)