
会员
PySpark大数据分析与应用
更新时间:2025-01-07 16:59:24 最新章节:【正版无广】参考文献
书籍简介
本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例强化PySpark在大数据分析中的实际应用;第6、7章通过基于PySpark的网络招聘信息的职业类型划分和基于PySpark的信用贷款风险分析两个完整的案例实战,结合前5章的PySpark编程知识,实现完整的大数据分析过程。本书大部分章包含实训和课后习题,读者通过练习和操作实践,能够巩固所学的内容。本书可作为高校数据科学或大数据相关专业的教材,也可作为机器学习爱好者的自学用书。
品牌:人邮图书
上架时间:2024-04-01 00:00:00
出版社:人民邮电出版社
本书数字版权由人邮图书提供,并由其授权上海阅文信息技术有限公司制作发行
PySpark大数据分析与应用最新章节
查看全部戴刚 张良均主编
同类热门书
最新上架
- 会员本书是一部面向全面指导企业数据库运维管理的权威著作。图书从架构规划、安全规划(等保3.0)等关键领域入手,系统阐述了数据库高可用性的实现策略,确保数据服务的持续稳定。在企业数字化转型新技术、新业态、新模式下,从管理和技术两个方面,系统描述了大中型企业在数字化转型过程中,对规模日趋增大信息系统数据库开展运维管理工作的相关理论与方法,结合丰富的实践案例,重点对数据库运维管理模式、数据库全生命周期运维技计算机12.6万字
- 会员这是一本由Doris社区官方出品的Doris权威指南。本书基于Doris2.1版本撰写,由ApacheDorisPMCChair和SelectDB高级解决方案架构师联合撰写。书中不仅深入剖析了Doris的核心原理,还基于实际用户的需求对实战进行全方位指导。可以说,本书是一本融合了Doris社区数百位开发者和数千名使用者的智慧和使用经验的经典之作。本书共11章。第1~3章:面向Doris的初计算机20.9万字
- 会员本书系统讲解了高性能数据处理库Polars的核心原理与实践。书中从Polars的诞生背景与发展历程切入,深入解析其基于Rust的高性能架构、惰性求值机制及表达式系统,对比分析它与pandas等工具的差异,并引导pandas用户平滑迁移至Polars。本书围绕数据处理流程展开,涵盖数据读取与写入、数据类型(文本、时间、嵌套结构)处理、表达式组合与扩展、数据分组聚合、连接拼接及重塑等核心操作,并结合丰计算机10.6万字
