Kafka. Основное

Apache Kafka – распределённая система для обработки данных в режиме реального времени. Работает как почта: одни сервисы передают туда сообщения, а другие — получают. Её называют брокером сообщений, так как она выступает в качестве посредника.

Основные определения

Продюсеры (producers) — приложения, публикующие данные в Kafka.
Консьюмеры (consumers) — приложения, считывающие данные из Kafka.
Топики (topics) — именованные каналы, в которые продюсеры отправляют сообщения и из которых консьюмеры их читают.
Партиции (partitions) — физические «части» топиков, распределённые между брокерами для параллельной обработки и масштабирования. Сообщения внутри одной партиции хранятся в строгом порядке.
Брокеры (brokers) — серверы, принимающие, хранящие и передающие сообщения. Объединяются в кластеры для отказоустойчивости и масштабирования.
Zookeeper — сервис для координации кластера (в более новых версиях Kafka возможна работа без Zookeeper, но классическая архитектура опирается именно на него).

Где и как используется Kafka

Kafka подходит для проектов, где важны:

Высокая нагрузка (сотни тысяч/миллионы сообщений в секунду).
Масштабируемость и отказоустойчивость.
Возможность хранить и переиспользовать историю сообщений.

Часто применяют в:

Банковской сфере (онлайн-транзакции, платёжные системы).
Телекоме (обработка больших потоков данных).
IoT (сбор и анализ телеметрии).
Социальных сетях.
ETL-процессах (Kafka Connect, потоковые платформы Apache Flink, Spark и др.).

Подход к обмену сообщениями

В Kafka используется модель pull: консьюмеры сами запрашивают новые сообщения у брокера через определённые интервалы времени. Это помогает группировать сообщения в пакеты и повышать пропускную способность. Однако такой подход может привести к разбалансировке нагрузки между консьюмерами и дополнительной задержке в получении сообщений.

После прочтения консьюмерами сообщения не удаляются и могут храниться в топиках неограниченно долго (в зависимости от настроек retention). Это значит, что к одному и тому же сообщению можно обращаться повторно — полезно для различных сценариев, например, повторной обработки или отладки.

Архитектура Kafka

Kafka является распределенной системой. Все серверы объединяются в кластеры. Хранение и пересылка сообщений идёт параллельно на разных серверах, это даёт большую надежность и отказоустойчивость. Такая архитектура упрощает горизонтальное масштабирование: достаточно добавить дополнительные серверы.

Топики разбиваются на партиции и реплицируются между несколькими брокерами:

Лидер — основная копия партиции, обрабатывает запросы на запись и чтение.
Фолловеры — дополнительные копии (реплики), синхронизируются с лидером.
При сбое лидера одна из реплик становится новым лидером.

Replication factor показывает, сколько копий у каждой партиции. Например, значение 3 означает одну основную копию и две резервные.

Хранение и чтение сообщений

Каждое сообщение в Kafka имеет:

Ключ (необязателен, но влияет на выбор партиции и гарантирует порядок для одинаковых ключей);
Значение (payload сообщения);
Таймстамп;
Опциональные заголовки (headers).

Принцип работы (обмен сообщениями)

Публикация (продюсер)
Продюсер отправляет сообщение в топик. Ключ сообщения (если указан) определяет, в какую партицию оно попадёт; если ключа нет, используется алгоритм round-robin.
Хранение (брокеры)
Сообщение записывается в соответствующую партицию на одном из брокеров и реплицируется на остальные (в соответствии с replication factor).
Чтение (консьюмеры)
Консьюмер запрашивает у Kafka данные, получает от брокера новую порцию сообщений вместе с оффсетами.
Коммит офсетов
После обработки консьюмер сообщает брокеру, до какого офсета все предыдущие сообщения успешно обработаны.
При сбое консьюмер может начать чтение с последнего зафиксированного (закоммиченного) офсета.

Типы доставки сообщений

At most once — сообщение может быть доставлено максимум один раз, но возможна потеря.
At least once — сообщение будет доставлено как минимум один раз, возможны дубли.
Exactly once — ровно один раз, без потерь и дублирования (требует сложных настроек, обычно реализуется в связке с Kafka Streams).

Надёжность зависит от подтверждений (acks) продюсера:

acks=0 — нет подтверждений (возможны потери).
acks=1 — подтверждение от лидера (средняя надёжность).
acks=all — подтверждение от всех реплик (высокая надёжность).

Как не читать сообщение дважды

Kafka сама не отслеживает, какие сообщения были обработаны консьюмерами. За это отвечают офсеты (offsets). Каждая партиция — это упорядоченный журнал сообщений с уникальными номерами (оффсетами). Консьюмер:

Считывает сообщение и его оффсет.
Обрабатывает сообщение.
«Коммитит» оффсет (offset-commit), уведомляя брокер о том, что сообщение обработано.

Таким образом, при перезапуске консьюмер знает, с какого места продолжить чтение.

Подборка материалов

Наши публикации

Статьи

Видео

Конференции

Объектно-ориентированный подход в построении архитектуры решений (AnalystDays)
Содержит кейсы по построению систем с использованием Kafka.
Построение современных мастер-систем в корпоративном секторе (AnalystDays)
Включает примеры использования Kafka в крупных организациях.

Книги

Kafka в действии — Дилан Скотт, Виктор Гамов, Дейв Клейн.
Apache Kafka. Потоковая обработка и анализ данных — Гвен Шапира, Тодд Палино, Раджини Сиварам, Крит Петти.
Effective Kafka: A Hands-On Guide — Emil Koutanov (англ).
Проектирование событийно-ориентированных систем. Концепции и шаблоны проектирования сервисов потоковой обработки данных с использованием Apache Kafka - Бен Стопфорд Обзор второй и третьей книг.

Основные определения​

Где и как используется Kafka​

Подход к обмену сообщениями​

Архитектура Kafka​

Хранение и чтение сообщений​

Принцип работы (обмен сообщениями)​

Типы доставки сообщений​

Как не читать сообщение дважды​

Подборка материалов​

Наши публикации​

Статьи​

Видео​

Конференции​

Книги​