Курсы BI


Основы работы с Apache Spark в экосистеме Arenadata Hadoop


Дата курса
26.02.2024 - 29.02.2024
13.05.2024 - 16.05.2024
17.06.2024 - 21.06.2024
12.08.2024 - 15.08.2024


Курс «Основы работы с Apache Spark в экосистеме Arenadata Hadoop» поможет получить актуальные знания по основам работы с Apache Spark в экосистеме продуктов Arenadata и успешно применять их на практике.   

Программа

Обзор экосистемы Arenadata Enterprise Data Platform (EDP).

  • Экосистема Arenadata Hadoop (HDFS, MR, YARN, Hive, Tez, HBase, Phoenix, Solr, Spark, Zookeeper, AirFlow, Zeppelin).
  • Экосистема EDP: Arenadata Streaming, Arenadata DB, Arenadata QuickMarts, Arenadata Postgres, Arenadata Cluster Manager.

Apache Spark: работа с большими данными

  • Введение в Apache Spark. Архитектура и рабочий процесс. Абстракции. Компоненты. RDD, DataFrame, DataSet.
  • Настройка окружения и запуск приложений:
    • инструменты разработки и сборки (PyCharm, IntelliJ Idea, Maven, sbt)
    • среды исполнения (IDE, Livy, Zeppelin, spark-shell, spark-submit (Python, Java, Scala);
    • способы запуска программ (client/cluster).
  • Основы Scala: синтаксис, классы и объекты, иерархия классов, основные конструкции
  • Потребление данных из файлов: CSV, XML, JSON, Avro, ORC и Parquet. API абстракций. Схемы данных.
  • Потребление данных из СУБД (MySQL, PostgreSQL). Apache Spark SQL. Потребление данных из экосистемы Arenadata EDP.
  • Управление памятью и производительностью в Apache Spark. DataFrame API: SparkSession. Кеширование и копирование данных.
  • Преобразование структурированных данных. Выполнение соединений. Использование пользовательских функций (UDF, UDAF).
  • Apache Spark Streaming. Работа с потоками. Структуры. Примеры.
  • MLlib: использование Apache Spark для ML. Модели. Pipelines. Примеры.
  • GraphX: работа с графами в Apache Spark. Объекты и операции. Примеры.
Итоговое тестирование




« Предыдущий курс     Следующий курс»

Возврат к списку


Подпишитесь на новости