Дата курса
13.05.2024 - 16.05.2024
17.06.2024 - 21.06.2024
12.08.2024 - 15.08.2024
Курс «Основы работы с Apache Spark в экосистеме Arenadata Hadoop» поможет получить актуальные знания по основам работы с Apache Spark в экосистеме продуктов Arenadata и успешно применять их на практике.
Программа
Обзор экосистемы Arenadata Enterprise Data Platform (EDP).
- Экосистема Arenadata Hadoop (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
- Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.
Apache Spark: работа с большими данными
- Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet.
- Настройка окружения и запуск приложений:
- инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt)
- среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala);
- способы запуска программ (client/cluster).
- Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции
- Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
- Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
- Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
- Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
- Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
- MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.
- GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.