🌊

Google Cloud Dataflow

분석스트림과 배치를 잇는 변환 파이프라인

Google Cloud Dataflow는 들어오는 데이터를 변환하고 정리해 다음 저장소나 분석 계층으로 보내는 관리형 스트림·배치 처리 서비스입니다. 로그 정제, 실시간 집계, ETL처럼 흐름 자체를 가공해야 하는 파이프라인의 실행 계층입니다.

▶아키텍처 다이어그램

📊 데이터 흐름 다이어그램

📡Pub/Sub

🪣Cloud Storage

🌊Dataflow Job

⚙️Workers

📊BigQuery

📮Dead Letter

📋Logging

점선 애니메이션은 데이터 또는 요청의 흐름 방향을 나타냅니다

왜 필요한가요?

스트리밍과 배치가 섞이면 소스마다 처리 코드를 따로 만들기 쉽고, 워커 증설, 재시도, 지연 데이터 보정도 운영 과제가 됩니다.

왜 이런 방식이 등장했나요?

예전에는 배치 잡과 스트림 처리 시스템을 따로 운영하는 일이 흔했습니다. 데이터가 실시간화되면서 한 코드베이스로 두 흐름을 함께 다루는 모델이 필요해졌고, Beam과 Dataflow가 그 자리를 맡았습니다.

내부적으로 어떻게 동작하나요?

Apache Beam으로 변환 단계를 정의하면 Dataflow가 이를 관리형 워커에 분산 실행합니다. 입력은 Pub/Sub나 Cloud Storage에서 들어오고, 윈도우 집계와 필터링, 정제를 거친 뒤 BigQuery 같은 싱크로 보낼 수 있습니다.

경계와 구분

둘 다 데이터를 다루지만, BigQuery는 이미 쌓인 데이터를 SQL로 분석하고 Dataflow는 흐르는 동안 데이터를 바꾸고 옮깁니다. 저장 후 질문에 답할 때는 BigQuery, 적재 전에 흐름을 정리할 때는 Dataflow가 맞습니다.

언제 쓰나요?

로그 정제, 실시간 집계, 대규모 ETL처럼 흘러오는 데이터를 가공해 저장해야 할 때 적합합니다. 단순 조회나 작은 스크립트 수준의 이동에는 과합니다.

실시간 이벤트 처리배치 ETL윈도우 집계데이터 정제