🛡️

Guardrails

safety허용 범위와 실패 경로를 제어하는 안전 장치

guardrails는 시스템이 어떤 요청을 받아들이고, 어떤 도구를 쓰고, 어떤 형태의 결과를 내보낼 수 있는지를 통제하는 안전 장치입니다. 모델에게 '이렇게 해라'라고 말하는 수준을 넘어, 실제 런타임에서 허용 범위를 강제하는 계층에 가깝습니다.

▶아키텍처 다이어그램

🔄 프로세스 다이어그램

📥User Input

🔎Input Check

🧰Tool Policy

🤖Model

✅Output Check

🚨Fallback

점선 애니메이션은 데이터 또는 요청의 흐름 방향을 나타냅니다

왜 필요한가요?

모델이 실제 사용자와 시스템을 연결하기 시작하면, 잘못된 요청 수용, 민감 정보 유출, 과한 자동화, 권한 없는 행동 같은 문제가 금방 현실 이슈가 됩니다. 프롬프트에 금지 문구를 적는 것만으로는 이런 리스크를 안정적으로 다루기 어렵습니다.

왜 이런 방식이 등장했나요?

LLM이 요약기나 문서 도우미를 넘어 실제 행동과 운영 흐름에 들어오면서, 안전은 정책 문서가 아니라 제품 제어 로직이 됐습니다. 특히 tool use와 memory가 붙은 뒤부터는 모델 응답의 내용뿐 아니라 어떤 행동이 가능한지도 함께 통제해야 했습니다.

내부적으로 어떻게 동작하나요?

guardrails는 보통 입력 검사, 도구 권한 확인, 모델 실행 후 출력 검사, 실패 시 fallback 또는 escalation 경로로 구성됩니다. 입력 단계에서는 인젝션, 민감 정보, 금지 주제를 거르고, 출력 단계에서는 유출이나 위험 행동을 다시 검사합니다. 중요한 것은 차단 자체보다, 차단 뒤에 어떤 안전한 대체 흐름으로 보낼지까지 설계하는 것입니다.

경계와 구분

guardrails, prompt engineering, evals는 모두 실패를 줄이려는 장치지만 역할이 다릅니다. 바람직한 행동을 설명하는 수준이면 prompt engineering을 보고, 실패 빈도를 측정하려면 evals를 보고, 실제 입력, 도구, 출력을 런타임에서 막아야 하면 guardrails를 봐야 합니다. 규칙을 강하게 걸수록 안전해지지만 동시에 정상 요청까지 막을 수 있다는 점이 한계입니다.

트레이드오프

guardrails의 가장 큰 이득은 위험한 입력, 출력, 도구 호출을 실제 서비스 경계에서 바로 줄일 수 있다는 점입니다. 대신 차단 규칙이 늘수록 오탐, 재시도, 사람 검토 비용이 늘고 정상 흐름도 느려질 수 있습니다. 쓰기 도구, 민감 데이터, 규제 요구가 강할수록 이 비용을 감수할 가치가 커지고, 읽기 전용 저위험 흐름에서는 더 가벼운 통제가 합리적일 수 있습니다.

언제 쓰나요?

실무에서는 고객 지원, 사내 업무 자동화, 민감 데이터 처리, 장기 메모리 저장 정책에서 핵심적입니다. 다만 너무 공격적으로 막으면 시스템이 지나치게 무기력해지고, 너무 느슨하면 정책이 있어도 실제로는 새는 상태가 됩니다. 결국 guardrails는 추상적 공포가 아니라, 현재 시스템이 실제로 연결된 도구와 데이터 흐름을 기준으로 설계해야 합니다. 차단 정책의 효과와 오탐 비용은 observability로 추적하고, 자주 발생하는 실패 유형은 evals에 편입해 재발을 줄이는 루프를 함께 두는 것이 좋습니다.

고객 지원업무 자동화규제 환경장기 메모리