PySpark大数据分析与应用在线阅读
会员

PySpark大数据分析与应用

戴刚 张良均主编
开会员,本书免费读 >

计算机网络数据库10.4万字

更新时间:2025-01-07 16:59:24 最新章节:【正版无广】参考文献

立即阅读
加书架
下载
听书

书籍简介

本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例强化PySpark在大数据分析中的实际应用;第6、7章通过基于PySpark的网络招聘信息的职业类型划分和基于PySpark的信用贷款风险分析两个完整的案例实战,结合前5章的PySpark编程知识,实现完整的大数据分析过程。本书大部分章包含实训和课后习题,读者通过练习和操作实践,能够巩固所学的内容。本书可作为高校数据科学或大数据相关专业的教材,也可作为机器学习爱好者的自学用书。
品牌:人邮图书
上架时间:2024-04-01 00:00:00
出版社:人民邮电出版社
本书数字版权由人邮图书提供,并由其授权上海阅文信息技术有限公司制作发行

PySpark大数据分析与应用最新章节

查看全部
戴刚 张良均主编
主页

同类热门书

最新上架

  • 会员
    本书是一部面向全面指导企业数据库运维管理的权威著作。图书从架构规划、安全规划(等保3.0)等关键领域入手,系统阐述了数据库高可用性的实现策略,确保数据服务的持续稳定。在企业数字化转型新技术、新业态、新模式下,从管理和技术两个方面,系统描述了大中型企业在数字化转型过程中,对规模日趋增大信息系统数据库开展运维管理工作的相关理论与方法,结合丰富的实践案例,重点对数据库运维管理模式、数据库全生命周期运维技
    谷良 王利国 董晨霓计算机12.6万字
  • 会员
    这是一本由Doris社区官方出品的Doris权威指南。本书基于Doris2.1版本撰写,由ApacheDorisPMCChair和SelectDB高级解决方案架构师联合撰写。书中不仅深入剖析了Doris的核心原理,还基于实际用户的需求对实战进行全方位指导。可以说,本书是一本融合了Doris社区数百位开发者和数千名使用者的智慧和使用经验的经典之作。本书共11章。第1~3章:面向Doris的初
    王磊 陈明雨计算机20.9万字
  • 会员
    这是一部系统梳理和总结华为在数据空间领域的研究成果与实践经验的著作,全面讲解了如何构建可信、可控、可证的数据流通体系,旨在为跨主体、跨边界数据共享这一难题提供完整的解决方案。华为致力于数据空间理论与架构的研究近8年,积极参与国际数据空间协会(IDSA)、Gaia-X等国际组织的生态共建与标准制定,并与欧洲的相关科研机构在研究项目上开展了大量的合作。华为成功研发了自己的数据空间服务产品EDS(交换数
    《数据空间探索与实践》编写组计算机12.5万字
  • 会员
    本书系统讲解了高性能数据处理库Polars的核心原理与实践。书中从Polars的诞生背景与发展历程切入,深入解析其基于Rust的高性能架构、惰性求值机制及表达式系统,对比分析它与pandas等工具的差异,并引导pandas用户平滑迁移至Polars。本书围绕数据处理流程展开,涵盖数据读取与写入、数据类型(文本、时间、嵌套结构)处理、表达式组合与扩展、数据分组聚合、连接拼接及重塑等核心操作,并结合丰
    (荷)杰罗恩·詹森斯 泰斯·尼乌多普计算机10.6万字