🧪

LLM Evals

품질LLM 품질을 반복 가능하게 측정하는 테스트 체계

evals는 LLM 시스템의 품질을 감으로 보지 않고 반복 가능한 방식으로 측정하는 체계입니다. 프롬프트, 모델, retrieval, tool loop를 바꿨을 때 어떤 종류의 질문에서 좋아지고 나빠졌는지 비교 가능하게 만드는 것이 핵심입니다.

▶아키텍처 다이어그램

🔄 프로세스 다이어그램

🗃️Test Set

🤖Candidate System

⚖️Judge

📈Metrics

🩹Failure Slices

🚦Release Decision

점선 애니메이션은 데이터 또는 요청의 흐름 방향을 나타냅니다

왜 필요한가요?

LLM 앱은 같은 요청에도 결과가 조금씩 흔들릴 수 있고, 한두 개 예시가 잘 되더라도 실제 운영 데이터에서는 전혀 다른 실패가 나올 수 있습니다. 수동 확인만으로 품질을 판단하면, 평균적으로는 좋아 보여도 특정 사용자군이나 특정 문서군에서 크게 무너지는 회귀를 놓치기 쉽습니다.

왜 이런 방식이 등장했나요?

초기에는 '몇 개 질문 던져 보고 괜찮으면 배포'하는 방식이 많았습니다. 하지만 프롬프트 수정, 모델 교체, RAG 튜닝이 잦아지면서 회귀를 막을 공통 기준이 필요해졌고, LLM용 eval이 소프트웨어 테스트의 빈자리를 채우기 시작했습니다.

내부적으로 어떻게 동작하나요?

보통은 대표 질문 세트와 기대 기준을 먼저 정의합니다. 그다음 후보 시스템의 결과를 모아 exact match, 규칙 검사, model judge(모델이 채점자 역할을 맡는 방식), 사람 라벨 같은 방법으로 채점하고, 전체 점수뿐 아니라 어떤 slice(특정 질문군)에서 깨졌는지 분석합니다. 중요한 것은 화려한 단일 점수가 아니라 실제 운영 실패 유형을 얼마나 잘 반영한 셋을 만들었느냐입니다.

경계와 구분

evals, observability, guardrails는 모두 실패를 다루지만 시점이 다릅니다. 배포 전에 변경 전후를 비교하려면 evals를 보고, 운영 중 왜 실패했는지를 보려면 observability를 보고, 런타임에서 바로 막아야 하면 guardrails를 봐야 합니다. eval 점수가 좋아도 운영 데이터가 바뀌면 새 실패가 생길 수 있다는 점이 한계입니다.

트레이드오프

eval 체계를 갖추면 변경 전후 품질을 재현 가능하게 비교해 회귀를 빨리 잡을 수 있습니다. 다만 평가셋이 현실 사용자 분포를 못 담으면 점수는 좋아도 운영 품질이 떨어지는 착시가 생길 수 있습니다. 평가 자동화를 촘촘히 할수록 유지보수 비용도 늘어나므로, 핵심 실패 유형을 우선 커버하고 운영에서 발견한 사례를 주기적으로 편입하는 방식이 실용적입니다.

언제 쓰나요?

실무에서는 프롬프트 수정, retrieval 변경, 모델 라우팅, 안전 정책 변경 전에 최소한의 회귀 셋을 돌립니다. 이때 평균 점수 하나보다 '어떤 질문군(slice)에서 특히 무너지는가'를 보는 편이 더 실용적입니다. 운영에서 발견한 나쁜 사례를 계속 eval 셋으로 편입해야 테스트가 살아 있는 자산이 됩니다. 특히 운영 원인 분석은 observability로 하고, 반복되는 고위험 실패를 막는 실행 제어는 guardrails로 분리해 두면 개선 루프가 훨씬 명확해집니다.

프롬프트 변경 비교RAG 튜닝모델 교체배포 게이트