• ОФОРМИТЬ ПОДПИСКУ ОТЗЫВЫ

💻 Программирование [learndataengineering] Инженерия данных с использованием Databricks (2025)

Gatsby

ВЕЧНЫЙ
Регистрация
10 Окт 2018
Сообщения
45,507
Реакции
212,196
Автор: learndataengineering
Название: Инженерия данных с использованием Databricks (2025)

[learndataengineering] Data Engineering on Databricks (2025)

Databricks - одна из самых популярных платформ для обработки данных с использованием Apache Spark и создания современных хранилищ данных (Lakehouse). В этом курсе вы изучите всё, что нужно для уверенного старта работы с Databricks: от основ платформы до создания собственных пайплайнов и подключения BI-инструментов.
Вы узнаете, как работает Databricks, зачем его использовать, создадите свои ноутбуки, настроите кластер вычислений и познакомитесь с Databricks SQL Warehouse.
1. Установка и подготовка данных
Прежде чем приступить к практике, вы настроите Databricks на AWS, создадите S3-бакет для хранения данных и рабочее пространство. Также вы разберёте шаблон AWS CloudFormation, который использует Databricks, чтобы понимать, как инфраструктура разворачивается автоматически.
Проведёте обзор созданного кластера и ознакомитесь с датасетом, на основе которого будете строить свой ETL-процесс.
2. Практика: обработка данных
Вы изучите два способа загрузки данных в Databricks: напрямую или через S3 с последующей интеграцией. Также научитесь создавать репозитории кода. Это можно сделать двумя способами: подключить GitHub-репозиторий или создать репозиторий вручную прямо в Databricks.
Во время проекта вы выполните две ключевые задачи:
  • ETL-обработка данных: запустите пайплайн, выполните преобразование, создадите таблицы и сохраните их в Databricks.
  • Визуализация данных: в отдельном нотбуке выполните анализ с помощью Spark SQL и создадите визуализации.
Вы также узнаете, как хранятся данные внутри Databricks.
3. Хранилище данных и внешние интеграции
В завершение вы подключите Power BI к Databricks и попробуете оба способа интеграции: через вычислительный кластер и через SQL Warehouse. Таким образом, вы научитесь интегрировать Databricks с внешними аналитическими инструментами.
Рекомендации перед началом
Перед тем как начать этот курс, рекомендуется пройти курс "Основы Apache Spark". С этими базовыми знаниями вы сможете эффективно работать в Databricks.
Требования:
  • Аккаунт AWS
  • Аккаунт Databricks
  • Знания основ Spark (достаточно уровня курса «Spark Fundamentals»)
  • Затраты на AWS минимальны (особенно в рамках бесплатного уровня)

Материал на английском языке

Подробнее:
Скрытое содержимое доступно для зарегистрированных пользователей!

Скачать:
 
ВАЖНО:

Не оставляйте комментарии с просьбами обновить / заменить ссылку на скачивание или комментарии типа «404», «ошибка».

Для восстановления ссылки есть кнопки «Жалоба / Восстановить ссылку» в первом посте темы.

При нарушении Ваш комментарий будет удален, а Ваш аккаунт заблокирован на сутки. Пожалуйста, изучите правила нашего сайта.
Сверху Снизу