Amazon SageMaker
SageMaker는 데이터 준비부터 학습, 모델 저장, 추론 배포까지 ML 수명주기를 한 플랫폼 안에서 다루는 계층입니다. 팀이 모델 실험과 운영을 같은 흐름으로 반복할 수 있게 합니다.
▶아키텍처 다이어그램
🔄 프로세스 다이어그램점선 애니메이션은 데이터 또는 요청의 흐름 방향을 나타냅니다
모델을 직접 학습하고 배포하려는데 노트북 환경, GPU 학습 잡, 모델 저장, 추론 엔드포인트를 각각 따로 꾸리면 실험보다 인프라 준비가 더 오래 걸립니다. 팀마다 환경이 달라지면 같은 모델도 재현하기 어려워집니다.
초기 ML 팀은 데이터 준비, 학습, 배포 각 단계마다 환경을 따로 꾸려야 했습니다. 노트북에서 실험한 코드가 GPU 학습 잡에서 다른 버전의 라이브러리와 충돌하거나, 학습이 끝난 모델을 서빙 환경에 올렸더니 패키지 버전 불일치로 배포가 실패하는 일이 반복됐습니다. 단계마다 환경이 달라 재현도 어렵고, 인프라 설정을 고치는 데 실제 모델 개선보다 더 많은 시간이 소모됐습니다. 이런 압박을 해소하기 위해 ML 수명주기 전체를 하나의 플랫폼으로 통합한 SageMaker가 필요해졌습니다.
SageMaker는 ML 수명주기를 네 단계의 인과 흐름으로 연결합니다. 먼저 노트북에서 데이터를 탐색하고 모델 아이디어를 빠르게 실험합니다. 실험이 가능성 있어 보이면 학습 잡으로 넘겨 GPU 인스턴스에서 대규모 데이터셋으로 실제 학습을 돌립니다. 학습이 끝나면 모델 파일(아티팩트)이 S3에 저장되고, 이 아티팩트를 추론 엔드포인트로 배포해 애플리케이션이 예측 요청을 보낼 수 있게 됩니다. 각 단계는 공통 컨테이너 이미지(ECR)를 기반으로 환경을 고정하므로, 실험 단계의 코드가 배포 단계에서도 동일하게 동작합니다.
SageMaker와 Bedrock은 둘 다 AI 서비스지만 접근 방식이 다릅니다. SageMaker는 직접 모델을 학습·튜닝·배포하는 플랫폼이고, Bedrock은 관리형 파운데이션 모델 API를 소비하는 서비스입니다. 자체 데이터로 모델을 만들고 운영해야 하면 SageMaker를 보고, 이미 준비된 모델을 호출해 기능을 붙이는 게 목적이면 Bedrock을 보면 됩니다.
커스텀 모델 학습, 하이퍼파라미터 튜닝, 전용 추론 엔드포인트, MLOps 파이프라인 구축에 적합합니다. 모델을 직접 학습하지 않고 파운데이션 모델 API만 호출하는 경우에는 과합니다.