I tried to make Gemini a UX researcher that audits websites, results were mixed

Reddit26/03/17/u/ThePuckBuddy조회 1

원문 보기 →

HCI Today가 핵심 내용을 정리했어요

배경

•이 글은 Gemini, Playwright, Chromium을 활용해 웹사이트를 점검하고 사용자 시나리오를 모의하는 도구를 소개합니다.

주요내용

•작성자는 이 조합이 에이전트가 웹사이트를 탐색하게 하는 데 매우 강력하다고 평가합니다.
•다만 그래픽 렌더링 실패, 과도한 호버와 클릭 요소, 불명확한 다음 행동 때문에 쉽게 엉뚱한 경로로 빠질 수 있다고 말합니다.
•또한 최신 모델이 더 똑똑해 보여도 1단계 API 키로는 복잡한 사용성 감사에 필요한 도구 호출과 기억 용량에 한계가 있다고 설명합니다.

결론

•결론적으로 이 무료 도구는 대체로 유용한 UX 피드백을 주지만, 일부 환각이 섞이므로 신중하게 참고해야 합니다.

HCI 전문가들의 생각을 바탕으로 AI 에디터가 생성한 요약입니다.

HCI 관점에서 읽을 만한 이유

이 글은 AI 에이전트가 웹을 직접 탐색하며 UX 감사(UX audit)를 수행하는 흐름을 보여주기 때문에 HCI 실무자와 연구자 모두에게 의미가 있습니다. 특히 Gemini, Playwright, Chromium 조합이 실제 상호작용 맥락을 어느 정도 재현할 수 있는지, 반대로 어떤 조건에서 환각이나 잘못된 추론이 발생하는지 드러내는데요. 자동화된 평가의 가능성과 한계를 함께 읽어볼 수 있습니다.

CIT의 코멘트

CIT 관점에서 보면 이 글의 핵심은 ‘AI가 UX 평가를 대체할 수 있는가’가 아니라 ‘어떤 범위까지 보조할 수 있는가’입니다. 에이전트 기반 탐색은 화면 요소, 탐색 깊이, 반복 경로를 빠르게 훑는 데 유용하지만, 가시성 저하, 호버 의존 인터랙션, 분기 구조가 복잡한 흐름에서는 쉽게 맥락을 놓칩니다. 즉 70%의 실행 가능한 피드백은 초기 진단용으로 가치가 있지만, 30%의 환각은 오히려 연구 설계상 오탐을 유발할 수 있는데요. 따라서 CIT는 이런 도구를 ‘평가 자동화’보다 ‘휴리스틱 스크리닝 + 사람 검증’ 파이프라인으로 보는 편이 적절하다고 봅니다. 특히 접근성, 상태 전이, 예외 경로는 여전히 인간 평가자의 개입이 필요한 영역입니다.

원문을 읽으면서 던질만한 질문

Q.AI 기반 UX 감사 결과를 사람이 검증할 때 어떤 표본 추출 전략이 가장 효율적일까요?
Q.호버, 비동기 로딩, 시각적 렌더링 실패가 많은 인터페이스에서 AI 에이전트의 탐색 신뢰도를 어떻게 높일 수 있을까요?
Q.이런 도구를 휴리스틱 평가나 접근성 점검과 결합한다면, 실무 프로세스는 어떻게 재구성하는 것이 좋을까요?

HCI 전문가들의 생각을 바탕으로 AI 에디터가 생성한 코멘터리입니다.
정확한 내용은 반드시 원문을 참고해주세요.

원문 읽으러 가기 →

뉴스레터 구독

매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.