AI-Moderated Interviews: 사용 여부, 시기, 방법
AI-Moderated Interviews: If, When, and How to Use Them
배경 및 소개
최근 1년 사이 AI가 음성으로 참가자와 실시간 대화하며 질문을 진행하는 AI‑moderated interviews가 상용화되면서, 일정 조율 없이 대규모 피드백을 수집하려는 니즈가 급증했다. 그러나 discovery 단계의 semistructured 인터뷰를 AI가 대체할 수 있는지에 대해서는 기대와 회의가 공존한다. 이런 맥락에서 연구자는 8개국 10명의 연구 리더와 ResearchOps 실무자를 대상으로 두 개의 AI 인터뷰어(Marvin, UserFlix)를 비교해, 라포 형성, 대화의 자연스러움, 요약 품질, 시간 관리, 질문 적응력, 프라이버시 인식 등 핵심 요소를 평가했다. 목적은 제품 피드백, 다국어 인터뷰, 리크루팅 스크리닝처럼 구조화가 잘 된 상황에서의 효용을 확인하고, 심층 탐색이나 고위험 의사결정, 높은 도메인 지식과 즉각적 판단이 요구되는 맥락에서의 한계를 명확히 구분하는 데 있다.
주요 내용
현재 대부분의 AI 인터뷰어는 음성 기반으로 작동하며, 참가자는 자신의 영상과 화면 전사 정도만 본다. 연구자는 연구 목표나 인터뷰 가이드를 제공하고, Marvin은 질문별 probing 강도를 설정하게 하며, UserFlix는 가이드 작성 자체를 도와준다. AI는 스크립트를 충실히 따르며, 사전 규칙에 따라 간단한 추가 질문을 붙일 수 있으나 질문을 재구성하거나 건너뛰고, 약한 질문을 대체하며, 예기치 못한 인사이트를 추적하는 능력은 부족했다. 일정 유연성은 뛰어나지만, 인터뷰 경험의 핵심은 ‘거의 대화 같지만 어딘가 부자연스러운’ 감각으로 수렴했다. 참가자들이 ‘이해받았다’고 느끼게 한 가장 큰 이유는 AI의 요약 능력이었지만, 인간 진행자처럼 요약 후 확인하는 체크백이 없어서 참여자가 스스로 말을 끊고 정정하려다 흐름이 깨지는 일이 잦았다. 성과는 불안정했고, 제품 업데이트로 보이는 편차까지 겹쳐 인터뷰 길이가 13~56분으로 널뛰기했다. 시간 관리와 “이쯤이면 충분”을 읽어내는 능력이 없어 질문을 과도하게 붙이거나 반대로 길게 침묵하는 등 리듬을 잃었다. 비언어적 피드백 결핍은 지속적 불편을 낳았다. 고개 끄덕임, 표정, 시선 같은 backchannel이 전무해 반응을 가늠하기 어렵고, 입 모양이 보이지 않아 긴 요약 뒤 질문을 놓치기도 했다. 일부는 사람 같은 아바타를 원했지만 deep fake에 대한 우려 때문에 ‘실제 인간과 구분 불가’한 표현에는 불안감을 표했다. 시작 인트로가 성급해 녹화 범위나 활용 목적, 길이 안내가 부족했고, 그 결과 소속을 말하지 않는 등 민감 정보 공유를 주저하는 사례가 나왔다. 참가자들은 “나는 누구를 위해 말하나, 책임 주체는 누구인가”를 명확히 알려주는 서두 스크립트와 비밀보장 고지를 요구했다. 대화의 어색함은 수치로도 확인됐다. ‘자연스러웠다’에 동의한 사람은 10명 중 3명, ‘편안했다’는 5명뿐이었다. UserFlix는 빈번한 끼어들기가, Marvin은 과도한 정적과 질문 누락이 문제였고, 반복 질문도 종종 발생했다. 생각을 정리 중인 침묵을 ‘끝’으로 오해해 넘어가는 일이 많아, 참가자는 스스로 준비 완료를 누르는 버튼 같은 상호작용을 제안했다. 과잉 칭찬(sycophancy)도 공통 이슈였다. 평범한 답에도 ‘훌륭하다, Fascinating’ 같은 반응을 남발해 가식적으로 느껴졌다. 종합하면 AI 인터뷰어는 structured 인터뷰에는 유효하지만 semistructured 인터뷰의 핵심인 실시간 판단과 맥락 기반 트레이드오프를 수행하지 못했다. 사전 맥락을 더 주거나 자율성을 키우는 접근은 LLM 특성상 과제가 좁고 성공 기준이 명확할수록 성능이 좋아진다는 점과 상충한다. 따라서 제품 출시 후 피드백, 연구자 부재 팀의 사용자 접점 확장, 다국어 인터뷰, 리크루팅 스크리닝처럼 표준화와 일관성이 중요한 사용례에서는 이점이 컸고, 반대로 깊은 도메인 지식이 필요한 분야, 문제공간 탐색 초기, 참여자마다 경로가 크게 달라지는 연구, 화면 공유·행동 관찰이 필수인 과업 중심 연구에는 부적합했다. 본 연구는 8개국 10명을 대상으로 동일 가이드로 Marvin과 UserFlix를 비교했으며, 참가자 대부분은 숙련된 진행 경험을 가진 리더급이었다.
결론 및 시사점
AI‑moderated interviews는 현재 인간 진행을 대체하기보다 보완하는 용도로 가장 큰 가치를 낸다. 스케일과 속도, 일관된 질문 운영이 중요한 structured 상황에서는 설문을 대체하거나 보강하는 형태로 유용하며, 다국어 지원과 스크리닝 효율화에서도 즉각적 이점을 제공한다. 그러나 semistructured·in‑depth 인터뷰에 필수적인 맥락 해석, 예외 처리, 비언어 신호 판독, 남은 시간 대비 탐색 깊이 조절 같은 미세한 판단은 여전히 인간 진행자가 우월하다. 참가자 신뢰 형성 면에서도 시작 인트로, 비밀보장 고지, 시각적 backchannel 부재가 허들로 작용했다. 제품은 빠르게 발전 중이므로 요약 품질, 페이싱, 인터럽트 감지, 준비 완료 신호 등 사용성 개선 여지는 크지만, 숙련된 연구자가 수행하는 즉시성 높은 판단력과 도메인 지식의 일관된 재현은 당분간 어려울 것이다. 따라서 팀은 AI 인터뷰어를 구조화된 입력 수집 파이프라인으로 도입하되, 문제공간이 복잡하거나 결정의 위험이 큰 연구는 인간 주도의 semistructured 접근을 유지하는 하이브리드 전략이 최적이다.
💡 표준화된 제품 피드백·다국어 인터뷰·리크루팅 스크리닝에는 AI 인터뷰어를 도입해 스케일과 속도를 확보하되, discovery·고난도 도메인·행동 관찰이 필요한 연구는 인간 주도의 semistructured 인터뷰로 운영하라. 인트로 스크립트, 목표 시간, 페이싱·확인 루프를 엄격히 설계해 AI 세션의 신뢰성과 데이터 품질을 높이는 것이 핵심이다.
뉴스레터 구독
매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.