당신의 AI 도구에 정확성을 요구하라: Baymard Institute의 교훈
Demand Accuracy in Your AI Tools: Lessons from Baymard Institute
배경 및 소개
AI가 UX 업무의 효율을 높여준다는 약속과 달리, 실제 현장에서는 출력의 신뢰성과 책임성이 부족한 도구가 난립하고 있다. 특히 2023년 이후 GenAI가 급속히 도입되며 ‘즉석 heuristic evaluation’이나 ‘자동 UX 감사’를 표방하는 제품이 늘었지만, 정확도와 한계, 오작동 조건을 투명하게 공개하는 경우는 드물다. ecommerce 전문 연구기관 Baymard Institute 공동창업자인 Christian과 Jamie Holst는 이러한 상황에서 전문가 영역의 품질 기준을 낮추면 사용자와 비즈니스에 실질적 피해가 발생한다고 지적한다. 이들은 NN/g의 대화에서 AI를 맹신하기보다 검증과 책임을 요구해야 한다는 메시지와 함께, 자사가 개발한 AI 기반 ecommerce 평가 도구 UX-Ray의 설계 철학과 검증 절차를 사례로 제시하며, GenAI를 ‘신뢰 가능한 국소 영역’에만 한정해 쓰는 하이브리드 접근이 현재로서는 최선임을 강조한다.
주요 내용
대부분의 AI 기반 UX 도구는 사람 대비 정확도를 공개하지 않거나, 어떤 유형의 문제에 약한지조차 명시하지 않는다. 페이지 스캔형 도구를 예로 들면, 대비 부족이나 카피 불일치 같은 표층 신호는 잡아낼 수 있지만, 정보구조와 타깃 기대의 불일치처럼 맥락적이고 심층적인 UX 결함은 놓치기 쉽다. Baymard는 2023년 GPT-4의 이미지 처리 기능을 활용해 12개 화면을 ‘AI 감사’하고 전문가 결과와 대조했는데, 정확도는 20%에 불과했고 권고의 80%가 false positive였으며 실제 이슈 검출은 14%에 그쳤다. 이후 모델과 fine-tuning, prompt engineering이 발전하며 2025년에는 일부 평가에서 50~70% 정확도가 보고되었지만, Christian은 70%조차 제품 디자인에선 위험하다고 말한다. 예컨대 도구가 10가지 개선안을 내고 7개가 맞더라도 3개는 전환율을 깎을 수 있고, 사용자는 둘을 구분하기 어렵다. UX에서는 미세한 디테일이 매출에 직결된다. 예를 들어 상품 이미지 캐러셀의 점 표시를 썸네일까지 바꾸는 작은 변경만으로도 대형 리테일러의 전환율이 1% 상승해 수백만 달러의 효과를 냈다. 반대로 AI가 ‘시각적 혼잡을 줄이라’며 썸네일을 점으로 바꾸라고 권하면, 팀이 그대로 수용할 경우 전환 하락을 초래하고 원인조차 파악 못 할 수 있다.
이런 배경에서 Baymard는 UX-Ray를 구축했다. 이 도구는 자사 ecommerce 가이드라인 수백 개 중 현재 154개만 자동 점검한다. 범위를 20~25%로 제한한 이유는 단 하나, 각 규칙별 최소 95% 정확도를 달성할 수 있을 때만 포함시키기 때문이다. 정확도는 다양한 맥락에서의 스트레스 테스트를 통해 사람 평가와 대조해 산출한다. 기술적으로는 분류와 분석을 분리한 것이 핵심이다. Jamie에 따르면, 머신러닝과 LLM은 ‘패턴이 무엇인지’를 분류하는 데는 강하지만, ‘그 패턴이 이 맥락에서 좋은가 나쁜가’라는 가치 판단을 맡기면 정확도가 급락한다. 따라서 UX-Ray는 패턴 식별에만 확률적 AI를 쓰고, 평가와 처방은 Baymard 연구에 근거한 결정론적 로직으로 수행한다. 즉, AI에는 잘하는 역할만 맡기고, UX 판단은 사람 지식이 코딩된 규칙으로 가드레일을 친 하이브리드 아키텍처다. 미래에는 분석 단계도 AI가 더 잘할 수 있겠지만, 현재 세대의 GenAI는 아직 그 신뢰성에 이르지 못했다는 것이 이들의 결론이다.
결론 및 시사점
GenAI는 UX의 속도와 범위를 확장할 잠재력이 크지만, 만능 열쇠가 아니다. 특히 전문가 도메인에서는 ‘대충 맞는’ 결과가 곧 비용과 리스크로 전가된다. 그러므로 팀에 도입할 AI 도구를 평가할 때는 정확도를 어떻게 산정했는지, 한계와 실패 모드는 무엇인지, 어떤 가드레일이 있는지, 최종 결과 생성 과정에서 GenAI가 맡는 역할이 어디까지인지 구체적으로 요구해야 한다. 벤더가 수치와 방법론, 데이터셋, 사람 대비 기준을 투명하게 제시하지 못한다면 구매하지 않는 것이 바람직하다. Baymard의 UX-Ray 사례는 현재 시점의 실용적 해법을 보여준다. 즉, LLM을 패턴 분류처럼 신뢰 가능한 국소 작업에만 쓰고, 평가와 처방은 연구 기반의 결정론적 규칙으로 수행해 품질 기준을 지키는 방식이다. 다만 이 접근은 적용 범위가 제한적이라는 한계도 있다. UX-Ray가 전체 가이드라인 중 일부만 다루는 이유가 바로 그 점이며, 이는 곧 더 넓은 커버리지를 원하면 추가 검증과 비용이 필요함을 의미한다. 요컨대 오늘의 실무에서는 정확성과 책임성 우선, 하이브리드 설계, 투명한 검증이 핵심 원칙이며, 모델이 성숙할수록 분석 자동화의 지평이 점진적으로 넓어질 것이다.
💡 AI를 도입한다면 벤치마크된 정확도, 한계, 가드레일을 문서로 요구하고, GenAI는 분류 등 신뢰 가능한 작업에 한정하며 평가는 연구 기반의 규칙·사람 검증으로 마감하라. 전사 적용 전에는 A/B 테스트와 인간 기준선 대비 검증을 통해 역효과 리스크를 통제하라.
뉴스레터 구독
매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.