Vibe Coding XR: XR Blocks와 Gemini로 AI + XR 프로토타이핑 가속하기

Vibe Coding XR: Accelerating AI + XR Prototyping with XR Blocks and Gemini

arXiv2026-03-25Ruofei Du, Benjamin Hersh, David Li, Nels Numan, Xun Qian

배경 및 소개

최근 AI가 소프트웨어 제작 방식을 바꾸고 있다는 흐름이 매우 뚜렷한데요, 이 글은 그 변화가 XR(확장현실) 영역까지 어떻게 이어질 수 있는지를 보여주기 위해 등장했습니다. 특히 LLM 기반의 ‘vibe coding’이 2D 웹 개발이나 일부 3D 제작에서는 빠르게 퍼지고 있지만, XR은 여전히 게임 엔진의 복잡한 구조와 센서, 추적, 상호작용 파이프라인 때문에 진입장벽이 높다는 문제가 있습니다. 즉, 아이디어는 떠올랐는데 실제로 구현하려면 너무 많은 기술적 우회가 필요하다는 점이 핵심 배경입니다. 이 연구는 그런 간극을 줄이기 위해 XR Blocks라는 오픈소스 WebXR 프레임워크를 제안하고, 여기에 Gemini 같은 LLM을 연결해 자연어만으로 XR 프로토타입을 빠르게 만드는 흐름을 만들고자 했습니다. 이는 XR 제작을 소수 전문가의 영역에서 더 넓은 창작자층으로 확장하려는 시도라는 점에서 의미가 있습니다.

주요 내용

핵심은 XR Blocks가 XR의 복잡성을 낮은 수준의 센서 API나 엔진 세부 구현이 아니라, 사람 중심의 높은 수준 개념으로 바꿔서 다룬다는 점입니다. 저자들은 이를 ‘Reality Model’이라고 부르는데요, 사용자, 물리 환경, 지능형 에이전트를 각각 독립적인 구성 요소로 취급해 LLM이 이해하기 쉬운 언어를 제공합니다. 다시 말해, 모델이 자주 헛짚는 세부 구현 대신 “사용자 눈높이에 오브젝트를 띄운다”, “손가락 집기 제스처에 반응한다” 같은 의미 단위로 조합할 수 있게 만드는 구조입니다. 이는 단순히 개발 편의성을 높인다는 수준을 넘어, 생성형 AI가 공간 컴퓨팅을 더 안정적으로 다루기 위한 전제 조건을 마련했다는 점에서 흥미롭습니다.

이 위에 얹힌 Vibe Coding XR 워크플로는 자연어 프롬프트를 곧바로 실행 가능한 WebXR 애플리케이션으로 바꾸는 방식입니다. 사용자는 “손에 반응하는 민들레를 만들어줘” 같은 짧은 요청을 하면 되고, LLM은 XR Blocks 템플릿과 시스템 프롬프트를 바탕으로 코드를 생성합니다. 생성된 결과는 데스크톱의 시뮬레이션 환경에서 바로 확인할 수 있고, Android XR 헤드셋에서도 테스트할 수 있는데요. 여기서 중요한 점은, 이 과정이 단순한 코드 자동완성이 아니라 공간 배치, 물리 반응, 손 상호작용까지 함께 설계한다는 것입니다. 즉, 창작자가 ‘어떻게 구현할지’보다 ‘무엇을 만들지’에 집중하게 해준다는 점에서 vibe coding의 철학을 XR로 확장한 사례라고 볼 수 있습니다.

저자들은 워크숍 4회에서 20명의 참가자가 만든 60개의 프롬프트를 모아 VCXR60이라는 초기 평가용 데이터셋도 만들었습니다. 이를 통해 실행 성공률과 추론 시간을 봤는데요, 단순한 상호작용은 빠른 모델에서도 20초 이내에 생성되는 경우가 많았지만, 복잡한 애니메이션 상태나 정밀한 손 상호작용이 들어가면 더 큰 모델과 높은 추론 모드가 유리했습니다. 특히 초기에는 XR Blocks 자체의 버그와 LLM의 API 환각이 겹치며 오류가 많았지만, 여러 차례 반복 개선을 거치면서 성공률이 크게 나아졌다고 보고합니다. 이는 XR용 생성 시스템에서는 모델 성능만큼이나 프레임워크의 추상화 품질이 중요하다는 점을 보여줍니다.

사례도 꽤 다양합니다. 교육용으로는 오일러 정리를 시각화한 수학 튜터, 화학 반응을 안전하게 보여주는 몰입형 실험, 물리 법칙을 체감하는 스포츠나 실험실 앱이 만들어졌고요. 게임 쪽에서는 크롬 공룡 게임을 XR로 옮기거나, 절차적 생성으로 도시와 고대 유적, 별 지도까지 구성하는 시도도 있었습니다. 이런 결과는 생성형 AI가 단순히 시각적 장면을 꾸미는 데 그치지 않고, 학습과 놀이, 실험을 한 흐름 안에서 엮어낼 수 있음을 보여줍니다. 개인적으로는 이 부분이 가장 실용적으로 보이는데요, XR의 가치는 결국 ‘보는 것’보다 ‘해보는 것’에 있기 때문에, 빠른 반복 제작이 가능한 환경 자체가 큰 의미를 갖습니다.

결론 및 시사점

이 글의 결론은 비교적 분명합니다. XR에서의 vibe coding은 아직 초기 단계이지만, 고수준 추상화와 LLM을 결합하면 아이디어를 실제 동작하는 공간 경험으로 옮기는 속도를 크게 높일 수 있다는 점입니다. 다만 저자들도 한계를 분명히 인정하는데요, 웹 기반 구현은 접근성과 공유성에서는 강점이 있지만 Unity나 Unreal 같은 네이티브 엔진의 성능을 따라가기는 어렵고, 클라우드 LLM을 쓰는 만큼 지연 시간도 피하기 어렵습니다. 또한 오디오·비주얼 중심의 경험에 치우쳐 있고, 촉각이나 생체신호 같은 다중 감각 통합은 아직 본격적으로 다루지 못했습니다. 이런 점에서 이 연구는 완성된 해법이라기보다, XR 제작을 자연어 기반 창작으로 전환하기 위한 출발점에 가깝다고 볼 수 있습니다. 그럼에도 의의는 분명한데요, XR 개발의 병목을 ‘고난도 엔진 학습’에서 ‘의도 표현과 반복 실험’으로 옮겨 놓았다는 점이 중요합니다. 앞으로는 더 엄밀한 벤치마크와 인간-중심 평가가 필요하고, 접근성 모듈이나 다양한 입력 방식까지 포함한 도구 생태계가 보강되어야 할 것으로 보입니다.

💡 HCI 실무자라면 이 작업을 통해 자연어 기반 XR 프로토타이핑이 초기 아이디어 검증과 사용자 시나리오 탐색에 얼마나 유용한지 참고할 수 있습니다. 연구자 입장에서는 XR용 고수준 추상화와 프롬프트-상호작용 벤치마크를 설계해, 생성형 AI가 공간 인터랙션을 얼마나 안정적으로 다루는지 평가하는 방향으로 확장할 수 있습니다.

뉴스레터 구독

매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.