Amazon Athena
Athena는 S3에 저장된 파일을 그대로 읽어 SQL로 질문할 수 있게 해주는 서버리스 질의 엔진입니다. 데이터를 다른 저장소로 적재하지 않고도 탐색성 분석을 바로 시작하게 합니다.
▶아키텍처 다이어그램
📊 데이터 흐름 다이어그램점선 애니메이션은 데이터 또는 요청의 흐름 방향을 나타냅니다
로그나 이벤트 파일은 S3에 쌓였는데 확인할 때마다 별도 분석 클러스터를 준비하면 간단한 질문 하나도 무거워집니다. 파일 위에서 바로 조회하지 못하면 분석의 첫걸음 자체가 늦어집니다.
예전에는 로그나 데이터 레이크를 확인하려면 ETL 파이프라인을 먼저 구성하거나 전용 분석 클러스터를 운영해야 했습니다. 간단한 조회 하나를 위해 인프라를 준비하는 비용이 분석 자체보다 커지면서, 저장된 파일을 추가 준비 없이 바로 쿼리하는 서버리스 방식이 등장했습니다.
Athena는 S3 데이터를 직접 스캔해 SQL 쿼리를 실행하고 결과를 다시 S3에 저장합니다. 스키마 정보는 Glue Data Catalog를 참조하고, ETL 파이프라인을 먼저 만들지 않아도 바로 질의를 시작할 수 있으며, 필요하면 BI 도구로 결과를 이어받을 수 있습니다.
Athena와 Redshift는 둘 다 SQL 분석이 가능하지만 사용 방식이 다릅니다. Athena는 서버리스로 파일을 바로 읽는 질의 엔진이고, Redshift는 데이터를 적재해 두고 반복 분석하는 웨어하우스입니다. S3 파일을 적재 없이 바로 조회하는 게 핵심이면 Athena를 보고, 데이터를 정리해 반복 리포트와 집계를 돌리는 게 핵심이면 Redshift를 보면 됩니다.
로그 탐색, 데이터 레이크의 임시 분석, 조사성 SQL, 배치 보고서 초기 검증처럼 저장된 파일에 바로 질문을 던져야 할 때 적합합니다. 반복적이고 무거운 집계를 빠르게 처리해야 하는 경우에는 맞지 않습니다.