Kail
Организатор
Организатор
- Регистрация
- 09.04.2020
- Сообщения
- 438 385
- Реакции
- 43 519
- Монеты
- 1 191
- Оплачено
- 0
- Баллы
- 0
- #SkladchinaVip
- #1
[devhands] Clickhouse для аналитиков и инженеров данных [Алексей Белозерский]
- Ссылка на картинку
-
Научитесь эффективно использовать Clickhouse: возможности, архитектурные компромиссы и ограничения.
Встречи: 6 недель (1 встреча в неделю)
Живые лекции с экспертом, Алексеем Белозерским. Ведется запись, ссылка выкладывается в чат. Все встречи начинаются в 18-00 МСК, проходят в Zoom. Ссылка на Zoom-митинг «запинена» в чате.
Занятие 1. Архитектура Clickhouse
- Изучить Clickhouse - популярную колоночную СУБД для аналитики данных и разработки приложений и прнять, для каких задач эффективно применять Clickhouse.
- Обрабатывать миллиарды строк за секунды. Выполнять за доли секунды аналитические запросы, которые в PostgreSQL или Spark занимали минуты.
- Познакомиться с внутренней архитектурой одиночных и кластерных инсталляций.
- Разобраться со многими особенностями ClickHouse и с типичными ошибками. Грамотно хранить терабайты аналитических данных с минимальными затратами.
- Аналитикам данных
- Инженерам данных
- Архитекторам данных
- Разработчикам
Встречи: 6 недель (1 встреча в неделю)
Живые лекции с экспертом, Алексеем Белозерским. Ведется запись, ссылка выкладывается в чат. Все встречи начинаются в 18-00 МСК, проходят в Zoom. Ссылка на Zoom-митинг «запинена» в чате.
Занятие 1. Архитектура Clickhouse
- Какие бывают СУБД. Реляционные и нереляционные, строковые и колоночные, транзакционные и нетразакционные, ACID & BASE
- Особенности Clickhouse. Выбранные при разработке СУБД компромисы.
- CAP теорема и гарантии отказоустойчивости и целостности данных
- Области применения Clickhouse. Как надо и как не надо.
- Строковые и колоночные данные. Отличие Postgres vs Clickhouse
- Архитектура Clickhouse. Шарды и реплики. Zookeeper, Clickhouse keeper.
- Поднимаем Clickhouse на Ubuntu в простейших случаях, single инсталляция. Подключение к СУБД через clickhouse-client, DBeaver.
- Создаем таблицы - от простого к сложному. Типы данные в Clickhouse, кодеки, движки для single инсталляции
- Подключаемся через SQL Driver (JDBC), по HTTP, через Python. Как устроено подключение к Кликхаусу «под капотом».
- Как отконфигурировать систему, базовые текстовые конфиги. Популярные оптимизации. Лучшие практики для различных ситуаций.
- Движок MergeTree, LSN Tree.
- Data Parts. Слияния и мутации данных
- Реальный формат хранения данных на диске под капотом Clickhouse.
- Особенности хранения. Как они влияют на производительность SQL.
- Работа с дисковой подсистемой. Температурная карта хранения на различных типах дисков и работа с S3.
- Вставка данных большими батчами. Лучшие практики.
- Заводим таблицу в Clickhouse - режим эксперта. Какие есть опции и команды
- Исследуем data parts на диске и в служебных таблицах Clickhouse. Изучаем оптимизации и слияния данных. Как понять по data parts, что данные успешно принято СУБД.
- Data Parts в файловой системе - как хранятся данные на диске. Какое влияние оказывается на ФС и систему в различных ситуациях и режимах эксплуатации.
- CREATE TABLE - режим эксперта. Продвинутые кодеки и оптимизация хранения. TTL, температурная карта и т.д.
- Как подключиться к Clickhouse: HTTP, JDBC. Балансировка подключений. Дополнительнеы инструменты для управления подключениями в современных архитектурах приложений.
- Шардирование данных. Локальность. Как приложение узнает, куда ему полючиться в сложной конфигурации кластеров Clickhouse.
- Примеры применения в архитектуре приложений. Кейс встроенной аналитики.
- Работа с большими потоками данных, масштабирование потока. Кейс данных SIEM.
- Кейс сборщика метрик, StatsHouse.
- Back to CAP Theorem. Консистентность данных в Clickhouse. BASE и его особенности. Что нужно понимать разработчку об особенностях СУБД и его поведении в различных ситуациях.
- Мониторинг здоровья Clikhouse. За чем нужно следить в кластере.
- Балансировка подключений к Clickhouse. Какие настройки и требования к балансировщикам нужно соблюдать, чтобы не совершать ошибок новичка.
- Делаем дашборды здоровья Clickhouse для Single, Cluster архтектур. Алертим о неполадках в кластере.
- Элементы OLTP сценарием - когда все-таки можно?
- Пайплайны в кластере Clickhouse. Еще раз о гаратиях BASE.
- Движки X-MergeTree - что нужно знать.
- Особенности представлений и их материализации в Clickhouse. MV into Table - когда используем.
- Работа с партициями
- Мутации данных. ALTER TABLE Clickhouse-way
- Следим за мутациями
- Clickhouse + Airflow. Clickhouse + DBT. Tips & Tricks.
- Оптимизации - кодеки данных. TTL и тепловая карта, вычислимые поля.
- Встроенные коннекторы: JDBC, S3, Kafka, Iceberg
- Используем Airflow + DBT для разработки пайплайнов на базе clickhouse.
- Когда ETL в Clickhouse - плохая идея. Архитектурыне пределы системы, примеры неудачных решений и варианты борьбы с ними («скорая помощь») и обходных путей.
- Кликхаус-специфичные практики для инженеров данных.
- Об оптимизации запросов - практические примеры для обработки больших данных.
- Тюнинг СУБД для работы с большими данными. Уровень кластера, сессии, запроса.
- Особенности Clickhouse SQL
- Функции и дополнительные аналитические non-ANSI-SQL операторы к Clickhouse. Что полезно знать.
- Траблшутинг и планирование запросов. Что делать если запрос медленные или упал.
- Кластерный и одиночный Clickhouse с точки зрения написания SQL
- Tips & tricks. Что делать, если SQL запрос падает с ошибкой.
- Используем дополнительные функции clickhouse SQL для аналитики.
- Аналитические кейсы: считаем ретеншн, АБ-тесты
- Clickhouse + Lakehouse, Iceberg REST.
- Фичи Сlickhouse 26.x и другие нововведения
Показать больше
Зарегистрируйтесь
, чтобы посмотреть контент.
Скачать