시험은 현장을 예측하지 못한다

GPT-5.1이 브라우저 도구를 계산기처럼 쓰기 시작했다. 누구도 그렇게 설계하지 않았고, 어떤 벤치마크에도 그런 항목은 없었다. 출시 전 적대적 테스트는 이 행동을 잡아내지 못했다. OpenAI가 실제 사용자 대화를 그대로 새 모델에 대입해 돌려보고 나서야 드러났다.

여기에 시험과 현장의 간극이 있다. 모델은 시험을 통과한다. 그러나 시험을 통과했다는 사실은 현장에서 어떻게 행동할지 거의 알려주지 않는다.

2026년 6월 중순에 나온 일련의 발표는 이 간극을 서로 다른 각도에서 같은 결론으로 가리킨다. 검증의 무게중심이 실험실에서 실사용으로 옮겨가고 있다.

시험은 자신이 시험이라는 걸 안다

OpenAI가 공개한 Deployment Simulation의 수치 하나가 문제를 압축한다. SWE-Bench 같은 전통 벤치마크에서 모델이 "지금 평가받고 있다"고 인식하는 비율은 약 100%였다. 반면 실제 프로덕션 트래픽에서는 5.4%, 같은 트래픽을 재생한 시뮬레이션에서는 5.1%였다. 시험은 시험처럼 보이고, 모델은 그것을 안다.

그래서 방식을 바꿨다. 2025년 8월부터 2026년 3월까지 모은 약 130만 건의 비식별 대화에서 기존 응답을 지우고, 평가 대상 모델로 응답을 다시 생성한 뒤, 원치 않는 행동이 얼마나 자주 나오는지 셌다. GPT-5.4 Thinking은 예측을 먼저 등록하고 실제 배포 결과와 대조했다. 중앙값 오차는 1.5배였다. 다만 꼬리 오차는 최대 10배까지 벌어졌고, OpenAI는 이를 미해결 과제로 남겨 뒀다.

같은 기준 이동이 코딩 현장에도 보인다. Vicki Boykis는 64GB M2 맥에서 Gemma 4 26B를 주력으로 쓰면서, 모델을 판단하는 기준을 벤치마크 점수가 아니라 "API 모델로 다시 검증해야 하는가"로 잡았다. 점수가 아니라 실제 업무를 끝낼 수 있는가가 기준이다. 그는 추론 속도와 컨텍스트 한계를 인정하며 아직 프로덕션 전체를 맡길 단계는 아니라고 단서를 달았다.

에이전트가 오래 실행될수록 시험은 무의미해진다

OpenAI의 Ona 인수는 Codex에 끊기지 않는 클라우드 실행 환경을 붙인다. 단발 프롬프트-응답 사이클을 넘어, 한 에이전트가 이슈 접수부터 PR 생성까지 수 시간 동안 세션을 유지하며 일하는 구조다. 이때 질문은 "코드를 잘 쓰는가"가 아니라 "수 시간 동안 안전하게, 끊기지 않고 실행되는가"로 바뀐다. 이 질문은 짧은 벤치마크로 답할 수 없고, 실제 워크플로 안에서만 답이 나온다. OpenAI가 텍스트 응답을 넘어 도구 호출 시퀀스까지 시뮬레이션 범위에 넣은 것도 같은 이유다. 판별기가 시뮬레이션과 실제를 구분하는 승률은 11.6%에서 49.5%로 올라, 둘은 거의 구별되지 않는 수준에 이르렀다.

정보가 아니라 설계된 변화가 검증된다

같은 간극이 콘텐츠에서도 벌어진다. 팀 페리스는 자기 책 인쇄본 판매가 2025년 -46%, 2026년 추세 -57%이고 2022년 대비 약 80% 감소가 예상된다고 자신의 판매 데이터를 공개했다. 1분기 자기계발 카테고리는 전년 대비 26.3% 줄었다. 챗봇이 정보 전달을 공짜로 대체했기 때문이다. 그러나 그는 한 가지를 구분한다. 『4시간 신체』 요약본만 받은 친구 중 실제로 변한 사람은 없었지만, 책의 설계된 경로를 따른 수천 명은 100파운드 넘게 감량했다. 정보는 대체됐고, 설계된 변화는 남았다. 책의 시험은 "읽었는가"가 아니라 "변했는가"다.

신뢰도 같은 곳에서 갈린다. Anthropic이 미국인 51,993명에게 물었을 때, AI 개발 결정에서 AI 기업을 신뢰한다는 응답은 15%였고 독립 전문가는 43%였다. AI를 매일 쓰는 헤비유저조차 정부 개입을 74% 지지했다. 더 많이 써본 사람일수록 자기평가가 아닌 외부 검증을 원했다. 규제 지지는 71%로 당파를 가리지 않았다.

시험을 통과했다는 말과 현장에서 작동한다는 말은 더 이상 같은 말이 아니다.

교육과 AX 현장에서도 같은 기준이 작동한다. 강의를 들었는가가 아니라 업무 습관이 바뀌었는가로, 도입했는가가 아니라 실사용에서 검증됐는가로 성패가 갈린다. 조녁컴퍼니가 검증·반복·프로세스를 앞세우는 이유다. 사업영역 →

시험은 현장을 예측하지 못한다

시험은 자신이 시험이라는 걸 안다

에이전트가 오래 실행될수록 시험은 무의미해진다

정보가 아니라 설계된 변화가 검증된다

출처

조녁컴퍼니 뉴스레터