Цель курса
Предоставить слушателям знания и навыки, необходимые для выбора технологии хранения и обработки и анализа данных. В курсе разбирается широкий список современных технологий, представленных разными вендорами. Приводятся практические примеры использования некоторых из них.
Аудитория
Этот курс предназначен для специалистов по обработке и анализу данных, архитекторов, администраторов баз данных, желающих расширить свои знания и технические навыки по выбору и использованию современных технологий хранения, обработки и анализа данных.
Необходимая подготовка
Для эффективного обучения на курсе, слушатели должны обладать следующими знаниями и навыками:
- понимание, что такое данные, как они могут быть структурированы, как с ними работать
- понимание основных концепций программирования, таких как переменные, циклы, функции, условные операторы
- понимание, что такое база данных, как с ней работать, основы SQL
- понимание основных статистических понятий и методов
- желательно иметь представление о бизнес-процессах и методах анализа бизнес-данных
По окончании курса слушатели смогут:
- определять технологии и подходы сбора, хранения и обработки больших объемов данных с использованием OLTP, ETL, DWH и Data Lake
- понимать средства анализа данных с использованием OLAP
- определять отличия между различными типами баз данных, включая традиционные SQL-базы данных и современные NoSQL-базы данных, понимать специфику столбцовой организации хранения данных
- проектировать хранилища данных, используя методики Data Vault и Anchor Modeling
- понимать инструменты интеграции данных и их обработки с использованием процессов ETL и ELT, инструменты оркестрации и обработки данных в реальном времени
- понимать принцип работы средств визуализации данных и использовать инструменты бизнес-аналитики
- понимать принципы работы машинного обучения в контексте инженерии данных, различать разновидности машинного обучения в области анализа данных (Data Mining) и машинного обучения (Machine Learning)
Программа курса
1. Обработка и анализ данных
- Сбор и хранение данных: OLTP, ETL, DWH, Data Lake
- Анализ данных: OLAP
2. Обзор баз данных
- Традиционные SQL-базы данных
- Современные NoSQL-базы данных
- Специфика столбцовой организации хранения данных
3. Проектирование хранилищ данных
- Методики Data Vault и Anchor Modeling
4. Интеграция данных и их обработка
- Процессы ETL и ELT: обзор и сравнение
- Использование инструментов оркестрации
- Обработка данных в реальном времени
5. Визуализация данных и Business Intelligence
- Обзор инструментов бизнес-аналитики
- Сравнение систем аналитики
6. Машинное обучение в контексте инженерии данных
- Разновидности машинного обучения
- Анализ данных (Data Mining) и машинное обучение (Machine Learning)