定 价:69 元 本教材已被 2 所学校申请过!
丛书名:普通高等教育数据科学与大数据技术系列规划教材
抱歉,本教材暂不参与当前样书赠送活动!
- 作者:王宇新,齐恒,张霞编著
- 出版时间:2019/12/1
- ISBN:9787030631657
- 出 版 社:科学出版社
适用读者:本书适用于计算机科学与技术、软件工程等计算机类专业的本科生
- 中图法分类:TP274
- 页码:308
- 纸张:
- 版次:31
- 开本:16
- 字数:(单位:千字)
本教材的内容包括了面向大数据计算的底层系统级平台的介绍,面向大数据应用的架构及实用性算法介绍,以及面向真实企业级应用数据的应用实践。主要分三部分:第一篇介绍大数据相关的技术基础及底层架构;第二篇介绍大数据分析方法,重在各种机器学习的算法;第三篇为实践篇,以实验教程为主要内容。
更多科学出版社服务,请扫码获取。
目录
第一篇 大数据基础
第1章 大数据技术概述 1
1.1 理解大数据 1
1.1.1 大数据概念的提出 1
1.1.2 大数据概念的内涵 2
1.1.3 大数据的特征 2
1.1.4 大数据的数据类型 3
1.2 大数据处理流程 4
1.2.1 数据的采集与预处理 5
1.2.2 数据的存储与管理 7
1.2.3 数据的处理与分析 7
1.3 大数据关键技术 8
1.3.1 大数据的存储和管理 8
1.3.2 大数据的计算模式 9
1.3.3 大数据的分析方法 9
第2章 大数据存储与管理 10
2.1 分布式文件系统 10
2.1.1 分布式文件系统概述 10
2.1.2 几种比较流行的分布式文件系统 11
2.2 HDFS与Alluxio 12
2.2.1 HDFS 12
2.2.2 Alluxio 14
2.3 分布式数据库 17
2.3.1 分布式数据库系统概述 17
2.3.2 分布式数据库系统的特点 17
2.3.3 分布式数据库系统的结构 18
2.3.4 典型的分布式数据库系统 19
2.4 NoSQL 19
2.4.1 NoSQL概述 19
2.4.2 NoSQL的设计原则 20
2.4.3 NoSQL系统的技术特点 22
2.4.4 NoSQL与NewSQL的比较 23
2.5 HBase与Hive 25
2.5.1 HBase 25
2.5.2 Hive 29
2.5.3 Hive与HBase的比较 31
第3章 大数据计算模式 33
3.1 MapReduce计算 33
3.1.1 MapReduce概述 33
3.1.2 MapReduce模型 34
3.1.3 Hadoop中的MapReduce 34
3.2 流计算 36
3.2.1 流计算概述 36
3.2.2 流式大数据特征 37
3.2.3 流式计算系统关键技术 37
3.2.4 流式计算系统实例 39
3.3 图计算 43
3.3.1 图计算概述 43
3.3.2 分布式图计算 43
3.3.3 Pregel框架 45
3.3.4 Spark GraphX 46
第4章 大数据处理平台 48
4.1 Hadoop 48
4.1.1 简介 48
4.1.2 架构 48
4.1.3 工作过程 50
4.2 Spark 51
4.2.1 简介 51
4.2.2 架构 52
4.2.3 工作过程 52
4.3 各种产品化平台 53
4.3.1 国外的大数据处理平台 54
4.3.2 国内的大数据处理平台 56
第二篇 大数据分析
第5章 大数据分析概述 60
5.1 浅谈大数据分析 60
5.1.1 塔吉特的精准营销 60
5.1.2 Google流感预测 60
5.1.3 Netflix与纸牌屋 61
5.2 大数据分析基本流程 61
第6章 特征工程 63
6.1 特征工程概述 63
6.2 特征提取 63
6.2.1 特征及特征提取的概念 63
6.2.2 特征提取方法 64
6.3 特征预处理 67
6.3.1 特征预处理概述 67
6.3.2 特征缺失值处理 67
6.3.3 特征离散化 68
6.4 特征选择 69
6.4.1 特征选择概述 69
6.4.2 特征选择方法 70
6.5 特征降维 71
6.5.1 特征降维概述 71
6.5.2 特征降维方法 71
第7章 机器学习 73
7.1 回归分析 73
7.1.1 概念描述 73
7.1.2 线性回归 74
7.1.3 广义线性回归 76
7.2 聚类分析 77
7.2.1 概念描述 77
7.2.2 应用举例 78
7.2.3 聚类算法分类 78
7.2.4 代表性聚类算法 80
7.3 分类分析 80
7.3.1 概念描述 80
7.3.2 常用分类算法 81
第8章 数据可视化 87
8.1 数据可视化概述 87
8.1.1 定义与概念 88
8.1.2 数据可视化标准 88
8.1.3 可视化的挑战与发展趋势 88
8.2 应用场景 90
8.3 开源工具 90
8.3.1 R可视化相关工具 91
8.3.2 Python可视化相关工具 94
8.3.3 D3.js插件 99
8.4 RealRec平台数据可视化介绍 100
8.4.1 力导向图 100
8.4.2 雷达图 101
8.4.3 和弦图 101
8.4.4 趋势分析图 102
8.4.5 箱线图 102
8.4.6 散点图 103
8.4.7 折线图 103
8.4.8 饼图 104
8.4.9 柱状图 104
第三篇 大数据实践
第9章 SDK与应用 105
9.1 Spark ML介绍 105
9.2 SDK接口介绍 107
9.3 开发环境搭建 107
9.4 项目结构与构建 109
9.5 新算法编程开发 114
9.6 算法打包与上传 119
9.7 算法应用与评估 122
第10章 应用实践 124
10.1 实验一:水产品鲍鱼产量预测 124
10.2 实验二:高校贫困生识别 143
10.3 实验三:银行卡盗刷风险预警分析 161
10.4 实验四:电影票房预测 181
10.5 实验五:航空配餐预测 205
10.6 实验六:个性化推荐 226
10.7 实验七:风机预测性维护 238
10.8 实验八:医保欺诈 259
第11章 开放性实验 261
11.1 实验一:就业局就业与失业大数据分析 261
11.2 实验二:客户流失大数据分析 278