企业大数据工程
课程介绍
使用 Databricks 和 Delta Lake 的机器学习
持续时长:
8-9 周
(周末的在线会议)
课程概况:
学员将使用 Apache Spark,在由 Databricks 和 Delta Lake 驱动的 Azure 云上执行并行化计算,以隐藏数据分布和容错的复杂性。
本课程还将使用 Azure Databricks(基于 Apache spark、针对微软 Azure 云进行优化的分析平台),为主要的大数据管道奠定坚实的基础。
主要优势:
• 学员将在 Databricks 平台进行实践——这是市场上独有的学习体验。
• 该平台提供了易于使用的 Jupyter 笔记本接口,并允许无缝集成各种 API、其他平台和数据集。
• 不同于大部分其他 Apache Spark 课程,我们的课程提供Data Lake(作为一种数据分析策略的)技术的教学。
• Scala 编程语言
• Spark 数据框与数据集
• 弹性分布式数据集(RDD)
• Spark Streaming 功能
• Spark SQL
• 用 Databricks 吸收数据
• 用 Databricks 转换数据
• 基于 Azure Databricks 的 Delta Lake
• 使用 Scala 的 Spark core
• Spark 结构 API – 数据框,使用 Python 的 SQL
• Spark 结构 API – 使用 Python 的数据工程
• 使用 Databricks 吸收数据
• 使用 Databricks 进行数据转换,使用 Azure Databricks 管理 Delta Lake
– Douglas Merrill
我们的社会从 2020 年得到的最大启示之一就是,我们周围的世界正不断发生变化。唯一不变的是,这个世界生成的数据量始终在增长。大数据被称为 IT 行业的石油,这种说法不无道理,因为它的确促进了人们制定重要的商业决策。
到 2024 年产生的数据量
通过转移到云端将业务敏捷度提升 29%
中国大数据行业产值将达 1500 亿元人民币(220 亿美元)
– 前瞻产业研究院的预测结果
随着企业从传统架构过渡到现代数据架构,数据工程师开始成为极为关键的资源,他们可以应用能够在云上扩散和运行的相关新技术来构建数据管道。 在当今这个多变和极具竞争的市场中,每个企业都在寻找更有深度的分析和见解,以便推进任何企业级的转型。员工技能培训可以确保团队做好推进这种转型的准备。
根据领英 2020 年新兴职业报告
本课程可以帮助企业深入培训员工,为企业提供创新解决方案,支持它们使用 Delta Architecture 等现代大数据架构来处理大数据。
正在寻找员工培训课程的企业,这种培训可以提升企业的 IT、数据管理和分析专业人员的技能,以便他们开发和维护可促进大数据分析的框架。
从事数据项目,至少具备 3 年工作经验的软件和 IT 专业人员。
能够阅读、书写和理解英文资料。
具有英语口语能力是加分项(但不是必备能力)。
提交申请后,我们将邀请一名导师与您展开互动式的视频对话,指导您选择合适的培训主题。
轻松接触严格挑选的资深从业人员和导师,他们具备多年的相关技术工作经验。
通过多种方式为学员释疑解惑,并解决他们在课程中遇到的各种问题。
访问 O’Reilly 电子书,这种资料可以增强学员的理解能力。
整个课程提供了预置的本地/云实验室,它侧重于让学员在实践中学习,而不是以技术挑战为其制造学习障碍。