Google официально анонсировал масштабное обновление BigQuery, представив две ключевые функции:
Continuous Queries (непрерывные SQL-запросы) — позволяют анализировать входящие данные в режиме реального времени, включая ML-инференс и стриминг в другие системы;
кросс-региональные Federated Queries для Spanner — дают возможность обращаться к таблицам в Spanner из BigQuery, даже если они размещены в другом регионе, без оплаты трафика.
Эти функции делают BigQuery не просто хранилищем, а полноценной реактивной дата-платформой для real-time решений, аналитики и автоматизации.
Continuous Queries: как работают непрерывные SQL-запросы в BigQuery
Новая возможность позволяет запускать постоянно работающие SQL-запросы, которые автоматически обрабатывают поступающие данные. Это может быть:
потоковая запись;
массовая загрузка;
вставка через DML;
работа с API.
Особенности Continuous Queries:
результаты можно сохранять в таблицы BigQuery, отправлять в Pub или Sub, а также экспортировать в Bigtable;
поддерживается автоматическое масштабирование слотов — запрос подстраивается под нагрузку;
есть метрики в Cloud Monitoring, а также кастомные префиксы Job ID, что удобно для мониторинга и фильтрации.
Это позволяет строить автоматические пайплайны, которые не требуют ручного запуска, и моментально реагируют на поступающие данные.
Где это применимо: 5 реальных кейсов от Google
Google приводит 5 сценариев, в которых Continuous Queries приносят наибольшую пользу:
Персонализированные взаимодействия с клиентами. Сегментация и генерация сообщений через AI в зависимости от поведения пользователя, например, email или уведомление, адаптированное к последним действиям.
Обнаружение аномалий и угроз в безопасности. Непрерывный анализ логов и телеметрии для выявления отклонений и реагирования в реальном времени.
Управляемые событийные пайплайны через Pub и Sub. Встроенный стриминг-аналитик, который триггерит события при срабатывании определенных условий в данных.
Обогащение данных и извлечение сущностей. Применение SQL-функций + ML-моделей для структурирования в реальном времени, например: категоризации, нормализации и извлечения.
Reverse ETL — обратная выгрузка. Перенос обработанных данных в базы, ориентированные на быструю отдачу.
Эти сценарии превращают BigQuery в ядро архитектуры принятия решений в реальном времени, объединяя аналитику, ML и автоматизацию в единую точку входа.
Federated Queries: запросы к Spanner из любого региона без доплат
Второе крупное нововведение — это кросс-региональные запросы из BigQuery к Spanner. Раньше для этого требовалось развертывать инфраструктуру в одном регионе, либо платить заисходящего трафика между регионами. Теперь в режиме превью:
можно обращаться из BigQuery в Spanner, даже если они находятся в разных регионах;
оплата за трафик не взимается;
это снижает издержки и повышает гибкость при работе с распределенными архитектурами.
Нововведение особенно полезно для глобальных систем, в которых Spanner используется как высокодоступное хранилище, а BigQuery, в свою очередь, как аналитический слой.
Чем это полезно для аналитиков, разработчиков и дата-продуктов?
Стоит отметить, что теперь скорость реакции окончательно ушли от анализа «по факту» к анализу «во время». Теперь будет меньше ETL-циклов и задержек, а также больше автоматизации. Гибкая архитектура для событийных решений позволяет проводить ML-инференс, структурирование и пайплайны из одного запроса. Это открывает возможность быстро строить сценарии низкой задержки. А универсальный кросс-региональный доступ делает Spanner + BigQuery доступными как единый слой. Теперь нет необходимости в дорогих репликациях и коллокации.
Это отличная новость для всех, кто работает с аналитикой, стримингом, ML и платформами в реальном времени, от BI-команд до дата-инженеров.
👉🏻Следите за новостями в нашем telegram-канале — Новости Арбитража.
Нет комментариев.