한 기업이 AI 에이전트 파일럿을 돌린다. 데모에서는 작동한다. 그런데 실서비스 직전에 멈춘다. 이유를 캐보면 대개 "모델이 덜 똑똑해서"가 아니다. 누가 그 도구를 등록했는지, 결과를 누가 책임지는지, 권한을 어디까지 줄지가 정리되지 않아서다.
2026년 6월 중순에 나온 발표들은 서로 다른 회사에서 나왔지만 같은 곳을 가리킨다. 경쟁의 무게중심이 모델 성능에서, 그 모델을 업무에 연결하는 운영 체계로 옮겨갔다.
평가는 정답률에서 판단으로 옮겨갔다
OpenAI는 6월 17일 LifeSciBench를 공개했다. 박사급 생명과학자들이 만든 750개 과제, 1,062개 산출물, 19,020개 루브릭 기준, 453명의 전문가 리뷰로 구성된다. 과제의 79%는 여러 단계의 추론을 요구하고, 절반 이상은 도표·PDF·시퀀스 파일 같은 자료를 직접 해석해야 한다.
핵심은 무엇을 채점하느냐가 바뀌었다는 데 있다. 모델이 정답을 아는지가 아니라, 불완전한 근거를 다루고 제한 조건을 밝히며 전문가가 다음 의사결정에 쓸 수 있는 답을 내는지를 본다. 근거 없이 자신 있게 결론을 말한 답변은 지식이 많아 보여도 낮게 평가된다. 벤치마크 순위가 아니라 "쓸 수 있는 답인가"가 기준이 됐다.
모델이 똑똑해도 도구를 찾고 믿지 못하면 멈춘다
같은 날 Google은 Agentic Resource Discovery(ARD) 사양을 발표했다. 에이전트가 여러 시스템을 호출하는 실행 주체가 되면서, 필요한 기능이 어디 있고 신뢰할 수 있는지를 판단해야 한다. ARD는 조직이 자기 도메인 아래 기능 카탈로그를 게시하고, 레지스트리가 색인하고, 에이전트가 게시자 신뢰 정보를 함께 받는 구조다. 연결 자체는 MCP나 A2A 같은 기존 프로토콜에 넘기고, 그 앞단의 발견과 신뢰만 표준화한다.
도구를 찾은 뒤에도 운영 비용은 남는다. Hugging Face에 올라온 OpenClaw 온디맨드 추론 실험에서, 서버리스로 띄운 모델의 첫 요청은 콜드 스타트를 포함해 91.8초가 걸렸고 두 번째 웜 요청은 1.72초였다. 서버리스는 인스턴스 관리를 줄이는 대신 첫 요청 지연을 남긴다. 모델 호출 자체는 싸다. 발견·신뢰·기동이라는 운영 봉투에서 파일럿이 멈춘다.
실행 권한이 커질수록 경계와 기록이 먼저다
Microsoft는 Build 2026에서 Scout를 공개했다. InfoQ는 이를 항상 켜진 에이전트, 즉 "Autopilot" 범주로 분류했다. OpenClaw를 기반으로 하고 Work IQ와 통합되며, 로컬 파일 읽기·쓰기, 셸 스크립트 실행, 코드 패치 적용, 하위 에이전트 병렬 실행, 브라우저 자동화 같은 높은 권한의 작업을 수행한다. 질문은 "무엇을 할 수 있는가"에서 "항상 켜진 에이전트에 어떤 통제 장치가 필요한가"로 바뀐다. 권한 등급, 작업 로그, 승인 게이트, 롤백이 제품 요구사항에 들어가야 한다.
작은 쪽 끝에는 GitHub가 있다. 6월 18일부터 자동 생성 릴리스 노트는 Copilot cloud agent가 만든 PR을 @copilot 단독이 아니라 @monalisa with @copilot처럼 요청한 사람과 함께 표시한다. 에이전트가 작업의 기술적 주체가 되더라도, 그 작업을 지시하고 책임지는 사람의 기여는 기록에 남아야 한다는 조정이다.
모델은 더 이상 병목이 아니다. 병목은 그 모델을 업무에 안전하게 연결하는 평가·발견·권한·기록이다.
교육과 AX 현장에서도 같은 기준이 작동한다. 어떤 모델을 도입했는가가 아니라, 그 모델을 누가 어떤 권한으로 쓰고 결과를 어떻게 검증·기록하는가에서 성패가 갈린다. 조녁컴퍼니가 도구보다 운영 체계를 먼저 묻는 이유다. 사업영역 →