index

대화의 출력은 무엇이어야 하는가: Generative UI와 에이전트 UX의 미래

· 18min

대화의 출력은 무엇이어야 하는가: Generative UI와 에이전트 UX의 미래


지난 두 편에서 입력의 전환과 Generative UI라는 시대적 흐름을 조망했다. 첫 번째 글에서는 자동화의 입력이 Configuration에서 Conversation으로 바뀌고 있다는 이야기를, 두 번째 글에서는 에이전트 백엔드의 혁명에 비해 “얼굴”이 텍스트에 갇혀 있는 불균형과 그 불균형을 깨려는 다섯 진영의 경쟁을 살펴봤다. 이제 구체적인 질문으로 들어갈 차례다. 입력이 대화가 되었고, 출력이 인터페이스가 되어야 한다면 — 그 인터페이스는 어떤 모습이어야 하는가.

에이전트에게 “지난달 인보이스 세 건을 DB 레코드와 비교해줘”라고 말한다고 치자. 텍스트 채팅의 에이전트는 장문의 마크다운 테이블을 쏟아낸다. 인보이스 번호, 금액, 날짜, 불일치 항목. 스크롤을 내리며 읽다 보면, 두 번째 인보이스의 세금 항목이 맞는 건지 틀린 건지 판단이 흐려진다. 반면 Generative UI 에이전트는 인보이스 번호 입력 필드, 비교 옵션 토글, 불일치 항목이 빨간색으로 하이라이트된 인터랙티브 테이블, 그리고 “승인” 버튼을 띄운다. 같은 질문, 같은 에이전트, 완전히 다른 경험.

이것이 단순한 UX 개선처럼 보일 수 있다. 하지만 이것은 구조적 전환이다.


텍스트가 부족해지는 순간

텍스트 채팅은 많은 것을 해낸다. 요약, 번역, 브레인스토밍, 코드 작성. LLM의 자연 출력 형태이고, 보편적이며, 어떤 디바이스에서든 작동한다. 문제는 에이전트가 “행동”하기 시작할 때 벌어진다.

100행짜리 테이블을 마크다운으로 읽는 것과 정렬 가능한 인터랙티브 테이블로 보는 것의 차이는 설명이 필요 없다. 에이전트가 “이 세 건의 결제를 진행할까요?”라고 물었을 때, “네”라는 한 글자로 $50,000이 나가는 상황도 마찬가지다 — 각 건의 상세를 카드로 펼쳐 보여주고 개별 승인/거부할 수 있는 폼이 있다면 완전히 다른 의사결정이 된다. “이번 분기 매출 트렌드를 분석해줘”에 숫자를 나열하는 것과 라이브 라인 차트를 생성하는 것도 그렇다.

Jakob Nielsen은 이 상황을 “Review Paradox”라는 이름으로 짚었다1. AI가 수행한 작업을 검증하는 것이, 그 작업을 직접 수행하는 것보다 인지적으로 더 어렵다는 역설. 에이전트가 텍스트 로그 형태로 작업 결과를 쏟아내면, 사용자는 그것을 “읽고 이해하고 검증하는” 삼중 부담을 진다. Generative UI는 이 부담을 구조적으로 줄인다. 불일치 항목은 빨간색, 정상 항목은 초록색. 승인이 필요한 건에는 버튼, 참고만 하면 되는 건에는 접힌 카드. 읽는 인터페이스에서 행동하는 인터페이스로.


Thesys의 답: 에이전트가 UI를 만든다

2026년 2월 10일, 11명짜리 샌프란시스코 스타트업 Thesys가 Agent Builder를 출시했다. $4M 시드로 시작해 300개 이상의 팀이 쓰는 회사가 된 이들의 비전은 단순하다. “LLM 응답은 텍스트가 아니라 인터페이스여야 한다.”

이 비전의 기술적 기반이 2025년 4월에 공개된 C1 API다. 세계 최초의 Generative UI API라는 타이틀이 붙었는데, OpenAI 호환 엔드포인트로 설계되어 기존 코드에서 baseURL과 API 키만 바꾸면, 텍스트 대신 구조화된 UI 명세가 돌아온다. “월별 매출 트렌드 보여줘”라고 보내면, 에이전트는 라이브 라인 차트를 생성한다. “장바구니에 추가하고 체크아웃”이라고 하면, 인터랙티브 체크아웃 UI가 만들어진다. 데이터 쿼리는 테이블과 차트로, 폼 요구는 입력 필드로, 액션 요청은 버튼과 모달로 — 사용자 의도가 적절한 UI 컴포넌트에 지능적으로 매핑된다.

11월에는 C1 Artifacts API가 나왔다. 자연어 프롬프트 하나로 슬라이드와 리포트를 실시간 생성한다. 정적 이미지가 아니라 라이브 편집이 가능한 문서. 이것은 PowerPoint를 대체하는 것이 아니다. “프레젠테이션을 만든다”는 행위 자체를 대화로 바꾸는 것이다. 그리고 2월의 Agent Builder는 이 모든 것을 노코드로 감쌌다. 데이터 소스를 연결하고, 자연어로 에이전트의 톤과 가드레일을 설정하고, 색상과 테마를 입히면 끝. 이전 글에서 다뤘던 “Configuration에서 Conversation으로”의 전환이, 에이전트를 만드는 행위 자체에까지 적용된 셈이다.


에이전트는 언제 물어봐야 하는가

에이전트가 모든 것을 알아서 처리하면 좋겠지만, 현실의 업무에는 “사람이 결정해야 하는 순간”이 있다. $50,000 결제 승인, 환자 처방 변경, 계약서 조건 수정. 에이전트는 언제 자동으로 처리하고, 언제 사람에게 물어야 하는가?

업계가 수렴하고 있는 답은 Confidence-based Routing이다. 에이전트가 자체 신뢰도를 모니터링한다. 신뢰도가 85% 이상이면 자동 처리. 85% 미만이면 사람에게 확인을 요청. 정책 트리거가 발화하면 즉시 에스컬레이션. “Management by Exception” — 루틴 작업에서는 사람을 루프 밖에 두되, 어려운 작업에서만 개입. 목표 에스컬레이션 비율은 10-15%.

숫자가 이것의 효과를 말해준다. 적절한 Human-in-the-Loop 시스템을 갖춘 조직은 AI 오류를 63-78% 줄이면서도 순수 수동 대비 40-60%의 효율을 유지한다2. 헬스케어에서는 AI 단독 진단 정확도 92%가 병리학자와의 협업으로 99.5%까지 올라간다3. 사람을 완전히 빼는 것도, 사람이 모든 것을 검토하는 것도 정답이 아니다. 핵심은 “에이전트가 사람에게 물어보는 그 순간의 인터페이스”를 어떻게 설계하느냐다.

에이전트가 interrupt를 걸고 사람에게 질문을 던질 때, 텍스트로 “세 건의 결제를 진행할까요?” 라고 쓰는 것과, 세 장의 카드에 각각 금액/수신자/날짜를 표시하고 개별 승인 버튼을 붙이는 것은 같은 질문이지만 완전히 다른 신뢰도를 만든다. Generative UI가 여기서 필수가 되는 이유다. Nielsen이 말한 Review Paradox의 실전적 해법이 여기에 있다. 검토를 쉽게 만들어야 사람이 제대로 검토한다.

Anthropic의 “Building Effective Agents”에서 가장 많이 인용되는 문장이 있다4. “성공은 가장 정교한 시스템을 만드는 데 있지 않다. 필요에 맞는 적절한 시스템을 만드는 데 있다.” 이 철학은 UI 설계에도 그대로 적용된다. 복잡한 UI 프레임워크보다 단순하고 조합 가능한 패턴. 에이전트가 필요에 따라 카드, 테이블, 폼, 차트를 조합해 적시에 적절한 인터페이스를 생성하는 것.


프로토콜 스택이 완성되고 있다

앞 글에서 다뤘듯, MCP가 도구 접근을, A2A가 에이전트 간 협업을 표준화했다. 빠진 계층은 “사용자에게 어떻게 보이는가”였다.

AG-UI(Agent-User Interaction Protocol)가 이 계층을 정의하려 한다. 에이전트 시스템은 전통적인 request-response로 동작하지 않는다. 장기 실행 작업의 중간 결과 스트리밍, 비결정적 동작에 따른 UI 상태 변경, 텍스트와 도구 호출이 뒤섞인 하이브리드 출력. AG-UI는 16가지 이상의 이벤트 타입으로 이 통신을 규격화하고, CopilotKit에서 시작해 LangGraph, CrewAI, Google ADK까지 확산됐다.

MCP(손) + A2A(동료) + AG-UI(얼굴). 세 계층이 갖춰지면서, 남은 질문은 “얼굴”의 형태다. Google은 A2UI로 선언적 JSON 접근을, Thesys는 C1으로 LLM 직접 생성 접근을, CopilotKit은 Static/Declarative/Open-ended 세 패턴을 모두 지원하는 프레임워크 접근을 취한다.


Generative UI는 스펙트럼이다

여기서 중요한 구분이 있다. Generative UI라고 해서 모두 같은 것이 아니다.

가장 안전한 쪽에는 Static Generative UI가 있다. 미리 만든 컴포넌트에 AI가 데이터만 채운다. 결제 화면, 컴플라이언스 대시보드처럼 미션 크리티컬한 영역에 적합하다. 가운데에는 Declarative Generative UI가 있다. 컴포넌트 레지스트리에서 AI가 조합을 결정한다. 에이전트가 “이 데이터는 차트로, 저 데이터는 테이블로, 승인 버튼도 하나” 식으로 구성하는 것. 대시보드와 챗 어시스턴트에 현실적이다. 가장 자유로운 쪽에는 Open-ended Generative UI가 있다. AI가 HTML/CSS를 직접 생성한다. 프로토타이핑에는 강력하지만, 프로덕션에는 아직 위험하다.

“모델에 더 많은 자유를 줄수록, 가드레일에 더 많은 투자가 필요하다.” UI의 결정권을 누가 가지느냐 — 개발자가 가드레일을 쥐는 Static에서, AI가 자유롭게 그리는 Open-ended까지 — 는 안전성과 유연성의 트레이드오프다.

그리고 이 스펙트럼의 반대편에는 전혀 다른 접근이 있다. Anthropic의 Computer Use. 에이전트가 새로운 UI를 “생성”하는 대신, 기존 UI를 사람처럼 “소비”하는 것이다. 화면을 보고, 커서를 움직이고, 버튼을 클릭한다. Generative UI가 에이전트에서 사용자로 향하는 인터페이스라면, Computer Use는 에이전트가 컴퓨터를 향한 인터페이스다. 두 방향이 만나면 — 에이전트가 기존 시스템은 Computer Use로 조작하고, 사용자에게는 Generative UI로 결과를 보여주는 하이브리드가 된다.


남은 질문들

위험도 있다.

접근성. 전통적인 웹은 수십 년에 걸쳐 WCAG 표준을 쌓아왔다. AI가 동적으로 생성하는 인터페이스가 이 접근성 표준을 일관되게 충족할 수 있을까? Thesys의 Crayon 프레임워크가 Radix 프리미티브 기반으로 WCAG를 기본 지원한다고 하지만, Open-ended 패턴에서는 보장이 어렵다.

프레임워크 파편화. C1 DSL, A2UI, Open-JSON-UI, MCP-UI, RSC — UI 표현 방식만 다섯 가지가 경쟁 중이다. Vercel의 AI SDK RSC는 이미 개발이 일시 중단됐다. 표준이 수렴하기 전까지 개발자의 선택지가 오히려 부담이 될 수 있다.

“단순하고 조합 가능한 패턴”의 교훈. Anthropic은 에이전트 설계에서 프레임워크보다 직접 API를 호출하는 단순한 패턴을 강조했다. “프레임워크는 기저의 프롬프트와 응답을 추상화하여 디버깅을 어렵게 만들고, 불필요한 복잡성을 유발한다4.” 이 경고는 Generative UI 프레임워크 선택에도 유효하다. 화려한 추상화보다 투명한 구조가 결국 살아남을 가능성이 높다.


맺으며

Nielsen의 2026년 예측5. Google Research에 따르면 사용자가 AI 생성 인터페이스를 상위 웹사이트보다 90% 선호하고, 텍스트 전용 AI 답변보다 97% 선호했다6. 인간 전문 디자이너가 AI보다 아직 근소하게 앞서지만(56% vs 43%), Nielsen은 2026년 말이면 AI가 인간 디자이너를 추월할 것이라 예측했다5.

디자이너의 역할이 바뀐다. 영구적으로 설계된 앱 인터페이스에서, 맥락에 맞게 생성되고 사라지는 일시적 인터페이스로의 전환이다. Nielsen의 표현을 빌리면 “cheap, disposable UI.” 사용자를 위해 딱 그 순간에 필요한 형태로 만들어지고, 용도가 끝나면 사라지는 인터페이스.

지난 글에서 나는 “Configuration은 사라지는 게 아니라 보이지 않는 인프라로 내려가고, Conversation이 인터페이스로 올라온다”고 썼다. 출력에도 같은 일이 벌어지고 있다. 텍스트가 사라지는 것이 아니다. 텍스트가 기본 레이어로 내려가고, 그 위에 맥락에 맞는 인터페이스가 올라온다. 입력이 대화가 되었으니, 출력도 대화에 걸맞은 형태로 진화하는 것이다.

Don Norman은 말했다7. “상세한 명령을 기반으로 제품을 생각하지 마라. 목표를 표현하고 AI가 단계를 해결하게 하라.” 입력에서 우리는 이미 그렇게 하고 있다. 이제 출력이 따라갈 차례다.


출처

Footnotes

  1. Jakob Nielsen, “AI Agents: Goodbye UI Design, RIP Accessibility”, Nielsen Norman Group Substack. “Review Paradox” 개념 제시.

  2. Tredence (2024), HITL 시스템 효과 분석. 적절한 HITL 시스템으로 AI 오류 63-78% 감소, 순수 수동 대비 40-60% 효율 유지. Forrester Q2 2024 리포트 참조.

  3. AI 단독 진단 정확도 ~92%가 병리학자와의 협업(HITL)으로 99.5%까지 향상. FDA 규정 하의 헬스케어 HITL 채택률 85% (Forrester Q2 2024).

  4. Anthropic, “Building Effective Agents”, 2024. 2

  5. Jakob Nielsen, “18 Predictions for 2026”, Nielsen Norman Group Substack. 2

  6. Jakob Nielsen, “Generative UI from Gemini 3 Pro”, Nielsen Norman Group Substack. Google Research 결과 인용.

  7. Don Norman, “Design for the 21st Century” 마스터 클래스, IxDF. 또한 jnd.org 참조.