企业大数据工程
课程介绍
使用 Spark 的机器学习
– Douglas Merrill
我们的社会从 2020 年得到的最大启示之一就是,我们周围的世界正不断发生变化。唯一不变的是,这个世界生成的数据量始终在增长。大数据被称为 IT 行业的石油,这种说法不无道理,因为它的确促进了人们制定重要的商业决策。
到 2024 年将产生的数据量
通过转移到云端将业务敏捷度提升29%
中国大数据行业产值将达 1500 亿元人民币(220 亿美元)
– 前瞻产业研究院的预测结果
随着企业从传统架构过渡到现代数据架构,数据工程师开始成为极为关键的资源,他们可以应用能够在云上扩散和运行的相关新技术来构建数据管道。 在当今这个多变和极具竞争的市场中,每个企业都在寻找更有深度的分析和见解,以便推进自身转型。员工技能培训可以确保团队做好推进这种转型的准备。
根据领英 2020 年新兴职业报告
本课程可以帮助企业深入培训员工,为企业提供创新解决方案,支持它们使用 Delta Architecture 等现代大数据架构来处理大数据。
正在寻找员工培训课程的企业,这种培训可以提升企业的 IT、数据管理和分析专业人员的技能,以便他们开发和维护可促进大数据分析的框架。
从事数据项目,至少具备 3 年工作经验的软件和 IT 专业人员。
能够阅读、书写和理解英文资料。
具有英语口语能力是加分项(但不是必备能力)。
提交申请后,我们将邀请一名导师与您展开互动式的视频对话,指导您选择合适的培训主题。
轻松接触严格挑选的资深从业人员和导师,他们具备多年的相关技术工作经验。
通过多种方式为学员释疑解惑,并解决他们在课程中遇到的各种问题。
访问 O’Reilly 电子书,这种资料可以增强学员的理解能力。
整个课程提供了预置的本地/云实验室,它侧重于让学员在实践中学习,而不是以技术挑战为其制造学习障碍。
持续时长:
8-9 周
(周末的在线会议)
课程概况:
本课程旨在为关键的软件工程方法奠定坚实的基础,并向学员传授使用 Apache Spark 构建可扩展的企业数据管道以便进行分析的技能。它还将向学员传授使用 Apache Spark,在大数据集上扩展数据科学和机器学习任务的技能。
主要优势:
• 我们的课程以逻辑上一致的方式解耦 Apache Spark。
• 它涵盖三种最流行的 ML(机器学习)算法(决策树、聚类和回归),这是构建基于 ML 的解析解必不可少的方法。
• Scala 编程语言
• Spark 数据框和数据集
• 弹性分布式数据集(RDD)
• Spark Streaming 功能
• Spark SQL
• 机器学习
• 线性回归和决策树
• 聚类(K-均值算法)和逻辑回归
• 使用 Scala 的 Spark core
• Spark 结构 API – 数据框,使用 Python 的 SQL
• Spark 结构 API – 使用 Python 的数据工程
• Apache Spark 的召回
• 机器学习与线性回归介绍
• 决策树和随机森林代码
• 聚类(K-均值算法)
• 逻辑回归