定 价:78 元
丛书名:大数据管理与应用系列丛书
抱歉,本教材暂不参与当前样书赠送活动!
- 作者:吕欣,王梦宁
- 出版时间:2025/6/1
- ISBN:9787030818447
- 出 版 社:科学出版社
适用读者:大数据管理与应用、数据科学与大数据技术等相关专业的本科生或研究生,大数据与人工智能等相关方向从业人员
- 中图法分类:TP311.131
- 页码:428
- 纸张:
- 版次:1
- 开本:16
- 字数:670(单位:千字)
本书内容涵盖统计描述、相关分析、回归分析、数据降维、关联规则挖掘、分类、聚类、异常检测和集成学习等数据挖掘9大核心领域。通过原理解析、数学推导、流程分析、计算示例和案例演示,精心设计231个图表、47个代码示例及5大类学习模块,遴选了45个实践案例,全方位促进读者对内容的理解和掌握。此外,本书还配套丰富的数字化学习资源和全套教辅资料,形成了理论与实践并重的立体化教学体系。
更多科学出版社服务,请扫码获取。
大数据挖掘国家杰出青年科学基金
教育部科技进步二等奖
目录
第1章 绪论
1.1 大数据时代 2
1.2 大数据基本概念 3
1.2.1 大数据定义与内涵 3
1.2.2 大数据的主要特征 4
1.3 大数据与数据挖掘 6
1.3.1 大数据挖掘相关概念 6
1.3.2数据挖掘基本流程 7
1.3.3数据挖掘技术体系 9
1.3.4 大数据时代的挑战 15
1.4 大数据挖掘的典型应用 17
1.4.1 金融大数据 17
1.4.2 医疗大数据 18
1.4.3 制造业大数据 19
1.4.4 社交媒体大数据 20
1.5 大数据挖掘隐私与伦理问题 20
1.5.1 数据挖掘隐私问题 20
1.5.2 数据挖掘伦理问题 22
1.5.3 数据挖掘行为规范 22
本章小结 24
第2章 数据描述与统计指标
2.1 数据预处理 26
2.1.1 数据预处理概要 26
2.1.2 数据清洗 27
2.1.3 数据集成 32
2.1.4 数据獅 33
2.1.5 数据变换 37
2.1.6 实践案例:线上零售交易数据预处理 39
2.2 数据属性 40
2.2.1 标称属性 40
2.2.2 系数属性 41
2.2.3 数值属性 42
2.2.4 离散属性与连续属性 43
2.3 数据描述性统计 43
2.3.1 集中趋势度量 44
2.3.2 离散程度度量 46
2.3.3 分布形态度量 50
2.3.4 描述性统计常用工具 52
2.3.5 实践案例:化妆品销售数据描述性统计分析 53
2.4 数据可视化 54
2.4.1 条形图 55
2.4.2 饼图 56
2.4.3 箱线图 56
2.4.4 直方图 57
2.4.5 折线图 57
2.4.6散点图 58
2.4.7 气泡图 59
2.4.8 数据可视化常用工具 60
2.4.9 实践案例:钻石属性数据可视化分析 60
本章小结 64
第3章 相关分析
3.1 认识函数关系与相关关系 67
3.1.1 函数关系 67
3.1.2 相关关系 67
3.2 线性相关分析 69
3.2.1 相关分析的正态性检验 70
3.2.2 Pearson 相关系数 72
3.2.3 Spearman 秩相关系数 72
3.2.4 Kendall等级相关系数 74
3.2.5 实践案例:网络直播大数据和亚马逊评论数据相关分析 76
3.3 非线性相关分析 79
3.3.1 认识非线性相关性 79
3.3.2 互信息 80
3.3.3 最大信息緣 82
3.3.4 实践案例:桥梁振动的相关分析 83
3.4 偏相关分析 85
3.4.1 偏相关分析概述 85
3.4.2 实践案例:国内主要城市年度统计指标数据偏相关分析 87
3.5 距离相关分析 89
3.5.1 距离度量方法 89
3.5.2 实践案例:用户相似性度量 94
本章小结 98
第4章 回归分析
4.1 回归分析概论 101
4.1.1 高尔顿身高回归研究 101
4.1.2 回归分析概述 102
4.1.3 回归模型的评价指标 103
4.2 线性回归 105
4.2.1 一元线性回归 105
4.2.2 实践案例:直播平台观众数预测 108
4.2.3 多元线性回归 110
4.2.4 实践案例:基于多元线性回归的汽车燃油效率预测 114
4.3 多重共线性 117
4.3.1 认识多重共线性 117
4.3.2 多重共线性的诊断 118
4.3.3 多重共线性的解决方案 119
4.4 岭回归 120
4.4.1 岭回归概述 120
4.4.2 岭参数的选择 121
4.4.3 实践案例:基于岭回归的汽车燃油效率预测 122
4.5 LASSO 回归 123
4.5.1 LASSO 回归概述 123
4.5.2 坐标下降法 124
4.5.3 实践案例:基于LASSO回归的汽车燃油效率预测 125
4.6 非线性回归 127
4.6.1 本质线性模型 127
4.6.2 本质非线性模型 129
4.6.3 实践案例:基于工龄的月薪预测 129
本章小结 133
第5章 数据降维
5.1 降维的基本概念 136
5.1.1 降维的定义及原理 136
5.1.2 降维算法分类 136
5.2 奇异值分解 137
5.2.1 奇异值分解基本原理 137
5.2.2 奇异值分解算法评价 140
5.2.3 实践案例:基于奇异值分解的图像压缩 140
5.3 主成分分析 142
5.3.1 主成分分析基本原理 142
5.3.2 主成分分析算法评价 146
5.3.3 实践案例:基于主成分分析的鸢尾花数据集分析 147
5.4 因子分析 150
5.4.1 因子分析基本原理 150
5.4.2 因子分析算法评价 156
5.4.3 实践案例:基于因子分析的人格特征潜在因子挖掘 156
5.5 多维尺度变换 158
5.5.1 多维尺度变换基本原理 158
5.5.2 多维尺度变换算法评价 160
5.5.3 实践案例:基于多维尺度变换的人脸数据集降维 160
5.6 等距特征映射 163
5.6.1 等距特征映射基本原理 163
5.6.2 等距特征映射算法评价 165
5.6.3 实践案例:基于等距特征映射的S状流形模型降维 165
5.7 线性判别分析 167
5.7.1 线性判别分析基本原理 167
5.7.2 线性判别分析算法评价 170
5.7.3 实践案例:基于线性判别分析的三维数据集降维 170
5.8 t-SNE 172
5.8.1 t-SNE基本原理 172
5.8.2 t-SNE算法评价 175
5.8.3 实践案例:基于t-SNE的手写数字数据集降维 175
5.9 UMAP 177
5.9.1 UMAP算法基本思想 177
5.9.2 UMAP算法评价 179
5.9.3 实践案例:基于UMAP的手写数字数据集降维 179
本章小结 181
第6章 关联规则挖掘
6.1 关联规则挖掘概要 184
6.1.1 关联规则的含义 184
6.1.2 频繁项集 186
6.1.3 闭频繁项集和极大频繁项集 187
6.1.4 从频繁项集到关联规则 189
6.1.5 关联模式的评估 191
6.2 Apriori 算法 197
6.2.1 Apriori算法基本原理 197
6.2.2 Apriori算法应用与评价 198
6.2.3 Apriori算法的优化 200
6.2.4 实践案例:基于Apriori算法的超市商品购买记录关联分析 202
6.3 FP-growth 算法 204
6.3.1 FP-growth算法基本原理 204
6.3.2 FP-growth算法应用与评价 209
6.3.3 实践案例:基于FP-growth算法消费者购物时间偏好关联分析 209
6.4 Eclat 算法 211
6.4.1 Eclat算法基本原理 211
6.4.2 Eclat算法应用与评价 213
6.4.3实践案例:基于Eclat算法的糖尿病症状关联分析 213
6.5 H-mine 算法 216
6.5.1 H-mine算法基本原理 216
6.5.2 H-mine算法应用与评价 221
6.5.3 实践案例:基于H-mine算法的新闻推荐 221
本章小结 224
第7章 分类
7.1 分类霞概要 227
7.1.1 分类定义及原理 227
7.1.2 常用分类算法 227
7.1.3 分类算法评价指标 228
7.2 K-近邻 232
7.2.1 K-近邻基本原理 232
7.2.2 K-近邻主要参数 233
7.2.3 K-近邻算法应用与评价 234
7.2.4 实践案例:基于K-近邻的广告点击预测 234
7.3 朴素贝叶斯分类 237
7.3.1 贝叶斯分类基本原理 237
7.3.2 朴素贝叶斯分类原理 238
7.3.3 零频现象的拉普拉斯修正 240
7.3.4 朴素贝叶斯算法应用与评价 241
7.3.5 实践案例:基于朴素贝叶斯预测恒星类型 241
7.4 决策树 244
7.4.1 决策树基本原理 245
7.4.2 ID3 247
7.4.3 C4.5 250
7.4.4 CART 252
7.4.5 决策树算法应用与评价 254
7.4.6 实践案例:基于决策树的旅游业客户流失预测 255
7.5 Logistic 回归 258
7.5.1 从线性回归到Logistic回归 258
7.5.2 Logistic回归的损失函数 260
7.5.3 通过梯度下降求解最优参数 260
7.5.4 OvR和OvO 262
7.5.5 Logistic回归算法应用与评价 263
7.5.6 实践案例:基于Logistic回归的肝病预测 263
7.6 支持向量机 265
7.6.1 支持向量机概述 266
7.6.2 线性可分支持向量机 266
7.6.3 线性支持向量机 270
7.6.4 非线性支持向量机 273
7.6.5 支持向量机算法应用与评价 276
7.6.6 实践案例:不良用户识别 277
7.7 人工神经网络 278
7.7.1 感知机 278
7.7.2 XOR问题 280
7.7.3 多层感知树莫型 281
7.7.4 误差反向传播算法 284
7.7.5 深度神经网络 288
7.7.6 实践案例:基于面部特征的性别分类 290
本章小结 293
第8章 聚类
8.1 聚类算法概要 295
8.1.1 聚类的基本原理 295
8.1.2 聚类算法的分类 296
8.1.3 聚类算法评价指标 297
8.1.4 簇数量的确定 303
8.2 层次聚类 305
8.2.1 层次聚类算法基本原理 305
8.2.2 层次聚类算法应用与评价 307
8.2.3 实践案例:基于层次聚类的小麦种子聚类 307
8.3 K-means聚类 309
8.3.1 K-means算法基本原理 309
8.3.2 质心的初始化 310
8.3.3 K-means算法应用与评价 311
8.3.4 实践案例:基于K-means消费者画像构建 311
8.4 高斯混合聚类 313
8.4.1 高斯混合聚类基本原理 314
8.4.2 高斯混合聚类流程 315
8.4.3 高斯混合聚类应用与评价 316
8.4.4 实践案例:基于高斯混合聚类的食品聚类 316
8.5 DBSCAN算法 318
8.5.1 DBSCAN算法基本原理 318
8.5.2 DBSCAN算法应用与评价 319
8.5.3实践案例:基于DBSCAN的用户信用卡数据聚类 320
8.6 OPTICS 算法 322
8.6.1 OPTICS算法基本原理 322
8.6.2 OPTICS算法应用与评价 324
8.6.3 实践案例:OPTICS与DBSCAN算法对比 324
8.7 谱聚类算法 327
8.7.1 谱聚类算法基本原理 327
8.7.2 谱聚类算法应用与评价 333
8.7.3 实践案例:基于谱聚类的股票数据聚类 333
本章小结 335
第9章 异常检测
9.1 异常检测算法概要 337
9.1.1 异常与异常检测 337
9.1.2 异常检测算法的分类 338
9.1.3 异常检测的常用数据集 339
9.2 基于统计理论的异常检测 342
9.2.1 3*准则 343
9.2.2 箱线图 344
9.2.3 基于直方图的异常值得分 345
9.2.4 累积和法 347
9.2.5 实践案例:基于箱线图的wiki网络流量异常检测 350
9.3 基于空间分布的异常检测 351
9.3.1 孤立森林 352
9.3.2 局部异常因子 355
9.3.3 实践案例:基于局部异常因子的信用卡欺诈行为检测 357
9.4 基于降维的异常检测 359
9.4.1 主成分分析 359
9.4.2 自编码器 362
9.4.3 实践案例:基于主成分分析的飞机发动机异常状态识别 363
9.5 基于预测的异常检测 365
9.5.1 向量自回归模型 366
9.5.2 自回归差分移动平均模型 367
9.5.3 LSTM网络模型 370
9.5.4 实践案例:基于LSTM的股票收盘价格异常检测 373
9.6 延伸阅读——WSARE 375
本章小结 378
第10章 集成学习
10.1 集成学习概要 381
10.1.1 集成学习的定义及原理 381
10.1.2 Bagging(装袋) 382
10.1.3 Boosting(提升) 384
10.1.4 Stacking(堆叠) 385
10.1.5 集成学习的结合策略 386
10.2 随机森林 388
10.2.1 随机森林基本原理 388
10.2.2 随机森林算法应用与评价 390
10.2.3 实践案例:基于随机森林算法的银行危机预测 390
10.3 AdaBoost 393
10.3.1 加法模型 394
10.3.2 前向分布算法 395
10.3.3 AdaBoost求解步骤 395
10.3.4 AdaBoost算法应用与评价 397
10.3.5实践案例:基于AdaBoost算法的马疝病预测 397
10.4 梯度提升树 400
10.4.1 回归树基本原理 400
10.4.2 梯度提升树基本原理 402
10.4.3 梯度提升树算法应用与评价 404
10.4.4 实践案例:基于梯度提升树算法的充电桩故障状态预测 405
10.5 XGBoost 407
10.5.1 XGBoost基本原理 408
10.5.2 XGBoost目标函数构建 409
10.5.3 XGBoost目标函数求解 410
10.5.4 XGBoost算法应用与评价 412
10.5.5 实践案例:基于XGBoost算法的产品定价预测 413
10.6 LightGBM 416
10.6.1 LightGBM 的基本思想 416
10.6.2 直方图算法 417
10.6.3 梯度单边采样算法 419
10.6.4 互斥特征捆绑算法 421
10.6.5 LightGBM算法应用与评价 423
10.6.6 实践案例:基于LightGBM算法的中风预测 424
本章小结 427