Собесов

DataLearn DE-101: AWS vs GCP vs Azure — выбор облака под аналитику

Кейсы и метрикиCloudЛёгкаяJunior

Условие

Стартап выбирает облако для построения аналитической платформы. Бюджет — до 5 000 $/мес на старте, команда — 2 инженера и аналитик. Есть OLTP-источник в Postgres, нужно построить DWH и BI-витрины. Сравните AWS / GCP / Azure по компонентам стек: storage, DWH, ETL/orchestration, BI. Что выбрать и почему?

Решение

Сравнение

Слой AWS GCP Azure
Object storage S3 GCS ADLS Gen2
Cloud DWH Redshift BigQuery Synapse
Compute (Spark) EMR / Glue Dataproc HDInsight / Synapse Spark
Stream Kinesis Pub/Sub + Dataflow Event Hubs
Orchestration MWAA (managed Airflow), Step Functions Cloud Composer Data Factory
BI QuickSight Looker (Studio) Power BI (часть Azure)
Catalog Glue Data Catalog Data Catalog Purview

Для каких задач какое облако сильнее

  • AWS — самая зрелая экосистема, больше всего сторонних коннекторов, хорошо для multi-cloud стартов.
  • GCP — лучший serverless DWH (BigQuery), pay-per-scan модель, простой быстрый старт для аналитиков; ML-tooling (Vertex AI).
  • Azure — выигрывает в enterprise с Microsoft-стеком: AD, Power BI, Excel-интеграции.

Рекомендация для кейса

При бюджете 5K $/мес и команде в 3 человека — GCP + BigQuery:

  1. BQ pay-per-query (on-demand) — не платим за idle compute; стартап с малой нагрузкой почти ничего не тратит.
  2. Federated queries — можно сразу читать из Cloud SQL / Postgres без ETL.
  3. dbt + BigQuery — отлично работает, аналитик пишет SQL без инженерной обвязки.
  4. Looker Studio (Data Studio) бесплатный для базовых дашбордов.
  5. Cloud Composer / Cloud Functions — небольшие пайплайны без отдельного Airflow.

Альтернатива — AWS + Snowflake (Snowflake — кросс-облачный, доступен и на AWS). Если важна сертификация ФЗ-152 / соблюдение санкционных ограничений — Яндекс.Облако или VK Cloud.

Скелет архитектуры

Postgres (Cloud SQL) ──CDC──► Pub/Sub ──Dataflow──► GCS (Bronze, JSON)
                                                         │
                                            BigQuery (Silver/Gold)
                                                         │
                                                ┌────────┴────────┐
                                                ▼                  ▼
                                          Looker Studio       dbt CI
                                          (дашборды)          (трансформации)

Цена на старте

  • BigQuery storage: 0.02 /ГБ×100ГБ=2/ГБ × 100 ГБ = 2 /мес.
  • BQ queries: первые 1 ТБ/мес бесплатно, дальше 6.25 $/ТБ — стартап не упрётся.
  • GCS: 0.02 /ГБ×500ГБ=10/ГБ × 500 ГБ = 10 /мес.
  • Cloud Composer: small env ≈ 350 $/мес (или Cloud Functions + Cloud Scheduler — почти бесплатно).
  • Итого: < 500 $/мес — большой запас по бюджету.

Подводные камни

  1. BQ on-demand vs flat-rate: при росте нагрузки on-demand становится дороже — переходить на slots/Editions.
  2. Egress costs: вывод данных из облака платный. Если BI вне облака — счёт растёт.
  3. Data residency / ФЗ-152: для российских ПДн зарубежные облака формально не подходят — Яндекс.Облако / VK Cloud / OnPrem.
  4. Lock-in: проприетарные сервисы (Redshift, Synapse) сложнее мигрировать. BigQuery+Iceberg — компромисс.
  5. «Snowflake = AWS» — миф; Snowflake работает на всех трёх и кросс-регионально.
  6. Лимиты на бесплатный slot pool в BQ Free — на этапе POC может упереться.

Эталонный ответ

При малой нагрузке и команде до 3 человек — GCP + BigQuery + Looker Studio: serverless DWH, оплата по сканам, минимальная инфра-обвязка. Архитектура: Postgres → CDC → GCS (Bronze) → BigQuery (Silver/Gold) → Looker Studio. AWS+Snowflake — равноценная альтернатива; Azure — для Microsoft-shop. Российская команда с ПДн — Яндекс.Облако/VK Cloud.

Хочешь увидеть разбор?

Зарегистрируйся бесплатно — откроется развёрнутое решение этой задачи и ещё 4 на выбор.

Зарегистрироваться и увидеть разбор
Уже есть аккаунт? Войти