定 价:78 元
丛书名:大数据管理与应用系列丛书
抱歉,本教材暂不参与当前样书赠送活动!
- 作者:吕欣,黄宏斌
- 出版时间:2025/11/1
- ISBN:9787030823304
- 出 版 社:科学出版社
适用读者:大数据管理与应用、大数据技术与应用、智能科学与技术、计算机科学与技术等相关专业的本科生或研究生,大数据与人工智能相关方向从业人员
- 中图法分类:TP274,TP311.132.3
- 页码:454
- 纸张:
- 版次:1
- 开本:16
- 字数:705(单位:千字)
本书内容涵盖分布式理论基础、大数据处理架构Hadoop、Hadoop分布式文件系统、基于Hadoop的数据仓库工具Hive、分布式数据库HBase、分布式计算框架MapReduce、基于内存的分布式计算框架Spark、分布式计算框架Flink、分布式协作服务ZooKeeper等大数据平台架构核心理论与重要组件,以及资源管理平台YARN,分布式数据采集和传输系统Flume,基于发布/订阅的消息队列Kafka,分布式NewSQL数据库TiDB,分布式日志收集、查询和展示系统Loki,向量数据库Milvus等扩展技术。通过概念辨析、原理解析、模型介绍、流程分析、案例讲解和编程实现,结合精心设计的321个图表、19个代码示例及6大学习模块,遴选了7个实践案例,促进读者对内容的理解和掌握。此外,本书还提供虚拟机节点服务器配置、基于Apache的Hadoop集群搭建、Spark大数据平台搭建的操作指南,并配套丰富的数字化学习资源和全套教辅资料,形成了理论与实践并重的立体化教学体系。
更多科学出版社服务,请扫码获取。
大数据挖掘国家杰出青年科学基金
教育部科技进步二等奖
目录
第1章 导论
1.1 走进大数据时代 2
1.1.1 数据爆炸 2
1.1.2 数据生产要素 5
1.1.3 大数据时代的技术变革 8
1.2 大数据的定义及特征 11
1.3 大数据技术基础 14
1.3.1 数据采集与预处理 15
1.3.2 数据存储与管理 17
1.3.3 数据分析与挖掘 18
1.3.4 数据隐私与安全 19
1.4 大数据平台架构 22
1.4.1 大数据平台基本概念 22
1.4.2 大数据平台架构模块 23
1.5 大数据平台应用 25
1.5.1 环境监测大数据平台 25
1.5.2 智慧农业大数据平台 26
1.5.3 能源电力大数据平台 27
1.5.4 智慧物流大数据平台 28
1.5.5 医疗大数据平台 29
1.5.6 社会治理大数据平台 30
1.6 本书实验环境说明 31
本章小结 33
第2章 分布式理论基础
2.1 分布式系统简介 35
2.1.1 分布式系统的特点 36
2.1.2 分布式系统的优势 36
2.1.3 分布式系统的挑战 38
2.2 分布式存储理论 39
2.2.1 分区和复制 39
2.2.2 CAP定理 40
2.2.3 PACELC定理 44
2.2.4 BASE理论 46
2.3 分布式共识 48
2.3.1 分布式共识简介 48
2.3.2 分布式系统模型 49
2.3.3 FLP不可能定理 53
2.4 共识算法 54
2.4.1 Paxos算法 55
2.4.2 Raft算法 62
2.4.3 拜占庭容错和PBFT算法 68
本章小结 72
第3章 大数据处理架构Hadoop
3.1 认识Hadoop 75
3.1.1 数据库的架构设计 75
3.1.2 传统的数据库管理 77
3.1.3 新兴的数据管理需求 79
3.1.4 Apache Hadoop生态的提出 80
3.2 Apache Hadoop生态系统及其重要组件 82
3.2.1 分布式文件系统:HDFS 83
3.2.2 分布式计算框架:MapReduce 86
3.2.3 分布式协作服务:ZooKeeper 89
3.2.4 分布式列数据库:HBase 92
3.2.5 数据仓库:Hive 95
3.2.6 资源管理器:YARN 98
3.2.7 日志收集工具:Flume 100
3.3 Hadoop社区和典型应用 102
3.3.1 Hadoop社区 102
3.3.2 Hadoop的典型应用 103
本章小结 106
第4章 Hadoop分布式文件系统HDFS
4.1 HDFS概述 108
4.1.1 分布式文件系统发展 108
4.1.2 HDFS设计思想 112
4.1.3 HDFS特性与局限 114
4.2 HDFS基本架构 115
4.2.1 NameNode 116
4.2.2 DataNode 119
4.2.3 Client 121
4.2.4 Secondary NameNode 122
4.3 HDFS工作机制 124
4.3.1 机架感知 124
4.3.2 DataNode容错机制 125
4.3.3 高可用机制 129
4.3.4 联邦机制 133
4.4 HDFS读写操作 134
4.4.1 文件读取 134
4.4.2 文件写入 137
4.5 HDFS实践 139
4.5.1 HDFS安装、启动和配置 139
4.5.2 HDFS常用操作综合实践 148
本章小结 157
第5章 基于Hadoop的数据仓库工具Hive
5.1 Hive基础 160
5.1.1 Hive简介 160
5.1.2 Hive应用场景 160
5.2 Hive架构及运行机制 161
5.2.1 Hive架构 161
5.2.2 Hive工作流程及与Hadoop的交互 163
5.3 Hive数据类型 164
5.4 Hive数据定义语言 165
5.4.1 Hive数据库管理 166
5.4.2 Hive表管理 168
5.4.3 Hive视图管理 172
5.4.4 Hive索引管理 173
5.5 分区和分桶 174
5.5.1 分区与分区表 174
5.5.2 分桶与分桶表 176
5.6 Hive数据操作语言 178
5.6.1 加载文件 178
5.6.2 查询插入 179
5.6.3 数据迁移 180
5.7 Hive数据检索与计算基础 180
5.7.1 Hive运算符 181
5.7.2 数据的查询、过滤与分组聚合 182
5.7.3 Hive内置函数 186
5.8 Hive实践 187
5.8.1 Hive安装与配置 187
5.8.2 基于Hive的网络直播平台数据查询与分析综合实践 196
本章小结 206
第6章 分布式数据库HBase
6.1 数据库系统概述 209
6.1.1 数据模型 210
6.1.2 传统关系型数据库 214
6.1.3 关系型数据库标准语言SQL 220
6.1.4 大数据时代下的数据库技术 231
6.2 HBase概述 233
6.2.1 HBase的基本概念 233
6.2.2 HBase表结构 233
6.2.3 HBase的优缺点 236
6.3 HBase体系架构 237
6.3.1 Master 238
6.3.2 分区服务器 240
6.3.3 ZooKeeper 241
6.3.4 HBase客户端 242
6.3.5 HDFS 242
6.4 HBase数据模型 242
6.4.1 概念模型 243
6.4.2 物理模型 243
6.5 HBase读写流程 245
6.5.1 HBase写入操作流程 245
6.5.2 HBase读取操作流程 246
6.6 HBase shell 247
6.6.1 数据定义语言 247
6.6.2 数据操纵语言 249
6.7 HBase实践 250
6.7.1 HBase安装 250
6.7.2 单机模式配置HBase 252
6.7.3 分布模式配置HBase 253
6.7.4 简单的HBase操作实践 255
本章小结 259
第7章 分布式计算框架MapReduce
7.1 MapReduce概述 261
7.1.1 MapReduce简介 261
7.1.2 Map和Reduce函数定义 261
7.1.3 Map和Reduce函数示例 261
7.2 MapReduce工作流程 264
7.2.1 工作流程概述 264
7.2.2 MapReduce执行步骤 268
7.2.3 Shuffle过程详解 269
7.3 MapReduce的数据类型与格式 270
7.3.1 MapReduce数据类型 270
7.3.2 输入格式 271
7.3.3 输出格式 273
7.4 WordCount应用示例 275
7.4.1 WordCount问题背景 275
7.4.2 MapReduce执行条件判断 275
7.4.3 WordCount处理流程 275
7.4.4 编程实践 277
7.5 基于MapReduce的气象数据挖掘综合实践 283
7.5.1 气象数据集介绍 284
7.5.2 数据处理流程 284
7.5.3 编写MapReduce程序 285
本章小结 289
第8章 基于内存的分布式计算框架Spark
8.1 Spark概述 291
8.1.1 Spark产生背景 291
8.1.2 Spark是什么 292
8.1.3 Spark的主要特点 293
8.2 Spark组件 294
8.2.1 Spark Core 295
8.2.2 Spark SQL 297
8.2.3 Spark Structured Streaming 298
8.2.4 Spark MLlib 298
8.2.5 GraphX 299
8.3 Spark运行架构 299
8.3.1 基本概念 299
8.3.2 Spark应用程序 300
8.3.3 Spark工作流程 300
8.3.4 转换操作和行动操作 301
8.4 Spark结构化API 303
8.4.1 产生背景 303
8.4.2 DataFrame和Dataset 303
8.4.3 Spark数据类型 305
8.5 Spark下载及使用 306
8.5.1 Spark下载 306
8.5.2 Spark Shell使用 307
8.5.3 Spark UI简介 309
8.6 Spark SQL实践 310
8.6.1 Spark SQL查询语句 310
8.6.2 Spark SQL数据库和数据表 315
8.6.3 Spark SQL视图 318
8.7 基于Spark的商品订单数据处理综合实践 319
8.7.1 环境配置 319
8.7.2 数据来源 320
8.7.3 数据预处理 321
8.7.4 数据统计 321
本章小结 325
第9章 分布式计算框架Flink
9.1 Flink概述 327
9.1.1 Flink的定义及描述 327
9.1.2 Flink的主要功能 327
9.1.3 Flink的特点 328
9.2 数据处理架构设计 328
9.2.1 传统数据处理架构 328
9.2.2 初级流式处理架构 329
9.2.3 Flink流式处理架构 330
9.3 Flink工作机制 330
9.3.1 Flink运行架构 331
9.3.2 Flink应用程序部署方式 331
9.4 Flink API 332
9.4.1 Flink API关键概念 333
9.4.2 SQL/Table API 335
9.4.3 DataStream API 338
9.4.4 ProcessFunction 340
9.5 Flink监控 341
9.5.1 Flink监控处理的问题 342
9.5.2 Flink监控内容 342
9.5.3 Flink监控工具 343
9.5.4 Flink Metrics工具介绍 344
9.5.5 Flink Dashboard工具介绍 346
9.6 Flink应用场景 347
9.7 基于Flink的股票交易模拟综合实践 349
9.7.1 案例背景 349
9.7.2 数据说明 349
9.7.3 编程实践 350
本章小结 358
第10章 分布式协作服务ZooKeeper
10.1 ZooKeeper概述 360
10.2 ZooKeeper基础 360
10.2.1 集群角色 361
10.2.2 数据节点 362
10.2.3 会话 364
10.2.4 事件监听器 364
10.3 ZAB协议 365
10.3.1 工作过程概述 365
10.3.2 崩溃恢复 366
10.3.3 消息广播 367
10.3.4 协议描述 367
10.4 ZooKeeper 命令 370
10.4.1 创建Znode 370
10.4.2 获取数据 371
10.4.3 更新数据 373
10.4.4 列出子项 373
10.4.5 检查状态 374
10.4.6 删除Znode 374
10.5 ZooKeeper典型应用场景 375
10.5.1 统一命名服务 375
10.5.2 数据发布/订阅 376
10.5.3 分布式协调/通知 376
10.5.4 负载均衡 377
10.5.5 分布式锁 378
10.5.6 集群管理 380
10.5.7 Master选举 381
10.6 ZooKeeper在大型分布式系统中的应用 382
10.6.1 Hadoop 382
10.6.2 HBase 383
10.6.3 Kafka 384
本章小结 386
第11章 相关技术扩展
11.1 YARN 388
11.1.1 YARN概述 388
11.1.2 YARN架构 388
11.1.3 YARN工作流程 390
11.1.4 YARN常用命令 392
11.2 Flume 393
11.2.1 Flume 概述 393
11.2.2 Flume架构 394
11.2.3 Flume的Source 397
11.2.4 Flume的Channel 398
11.2.5 Flume的Sink 398
11.2.6 配置Flume Agent 398
11.3 Kafka 400
11.3.1 Kafka概述 400
11.3.2 Kafka架构 401
11.3.3 Kafka生产者 403
11.3.4 Kafka消费者 407
11.4 TiDB 410
11.4.1 TiDB概述 410
11.4.2 TiDB架构 411
11.5 Loki 416
11.5.1 Loki概述 416
11.5.2 Loki架构 417
11.5.3 Loki的安装及配置 418
11.5.4 Loki基本功能 418
11.5.5 Loki高级功能 423
11.6 Milvus 426
11.6.1 Milvus概述 426
11.6.2 关键概念 426
11.6.3 Milvus架构 428
11.6.4 Milvus部署模式 431
11.6.5 Milvus应用示例 431
本章小结 434
第12章 综合实践—日志采集分析系统
12.1 系统功能概述 436
12.1.1 Web应用 436
12.1.2 性能测试 436
12.1.3 日志采集与存储 437
12.1.4 日志分析 438
12.2 系统部署概述 439
12.3 系统构建说明 440
12.3.1 构建Web应用 440
12.3.2 实现日志采集和存储功能 443
12.3.3 构建日志分析功能 449
本章小结 453