VR-Based Sign Language Learning에서의 Behavioral Engagement: Visual Attention이 Performance 및 Temporal Dynamics의 Predictor로서
Behavioral Engagement in VR-Based Sign Language Learning: Visual Attention as a Predictor of Performance and Temporal Dynamics
배경 및 소개
최근 VR 기반 sign language 교육이 성과를 보이고 있는데요. 몰입형 환경이 손모양, 움직임, 표정 등 복합 모달 정보를 동시에 학습하게 해주기 때문입니다. 다만 무엇이 학습 성과를 실제로 좌우하는지, 특히 learner의 행동적 engagement가 성과와 어떻게 연결되는지는 충분히 규명되지 않았습니다. 본 연구는 ISENSE 프로젝트의 VR 애플리케이션 SONAR에서 수집되는 자동 지표를 활용해 이 공백을 메우려는 시도인데요. Visual Attention(VA), Video Replay Frequency(VRF), Post-Playback Viewing Time(PPVT) 세 지표와 퀴즈 성과의 관계를 117명 대학생 대상으로 분석했습니다. 로그 기반 behavioral trace는 확장성과 실시간성에서 강점이 있어, 학습 중 적응형 피드백으로 이어질 수 있다는 점에서 의미가 있습니다. 개인적으로는 sign language처럼 시각-운동 통합이 핵심인 과제에서 VA가 특히 결정적일 것이라 예상되는데, 이를 정량적으로 검증했다는 점이 흥미롭습니다.
주요 내용
SONAR는 대학 강의실을 배경으로 한 VR 학습 환경인데요. 사용자는 난청 아바타 Essie와 상호작용하며 12개 문장으로 구성된 대화를 학습(Training)하고, 이후 동일 맥락에서 3지선다 퀴즈(Validation)로 정착도를 확인합니다. Training에서는 영상 재생과 반복 시청이 자유롭고, Validation에서는 1·2차 시도에 따라 50/25/0점으로 채점합니다. Meta Quest 기반 6DoF 상호작용과 hand gesture를 지원하며, International Sign과 각 국가 sign language 영상을 제공합니다. 핵심은 세 가지 engagement 지표입니다. VA는 학습/평가 동안 사용자의 head-gaze가 서명 화면의 중심 ROI(약 10° 시야)에 머문 비율로 산출했는데요. eye-tracking 없이 head pose만으로 계산해, 범용 소비자 HMD에서도 적용 가능한 지표라는 장점이 있습니다. PPVT는 각 클립 재생 종료 후에도 사용자가 화면에 시선을 유지한 누적 시간이고, VRF는 Training에서 각 영상의 재시청 횟수를 총 학습 시간으로 정규화한 값입니다. 분석은 Pearson correlation으로 개별 상관을 보고, binomial Generalized Linear Model(GLM)로 공동 예측력을 추정했으며, 더 나아가 모든 학습자의 순간별 VA trace를 집계해 시간적 패턴을 특성화했습니다. 결과는 명료합니다. VA가 퀴즈 성과와 매우 강한 정적 상관을 보였고(r=0.76), 다음으로 PPVT가 유의미했습니다(r=0.66). 반면 VRF는 의미 있는 연관을 보이지 않았는데요. 이는 ‘얼마나 많이’보다 ‘어떻게 집중했는가’가 더 중요하다는 신호로 해석됩니다. GLM에서도 VA와 PPVT가 모두 유의한 예측 변수로 남았고, 두 지표만으로도 상당한 성과 분산을 설명했습니다(pseudo-R^2=0.83). 시간적 분석에서는 정보 밀도가 높은 구간과 정확히 정렬된 VA 피크가 나타났고, 학습 초반의 적응기, 학습 중 파형처럼 오르내리는 주기적 집중, 평가 단계에서의 두드러진 집중 봉우리가 관찰되었습니다. 정리하면, 지속적이면서 과업-관련적이고 전략적으로 배분된 시각적 주의가 VR 기반 sign language 학습의 성패를 가른다고 볼 수 있습니다. 개인적으로는 PPVT가 ‘재생 후 멈춰서 다시 그려보는’ 인지적 여유를 포착한다는 점에서, 단순 반복(VRF)보다 학습 품질을 잘 대변한다는 해석이 설득력 있습니다.
결론 및 시사점
이 연구는 VR sign language 학습에서 VA가 성과의 핵심 예측자이며, PPVT 역시 의미 있는 기여를 한다는 점을 명확히 보여줍니다. 반대로 VRF는 유효하지 않았는데요. 이는 replay라는 양적 행위보다 주의의 질과 배분 방식이 학습에 더 직접적으로 연결된다는 점에서 주목할 만합니다. 또한 집단 수준 VA의 시간적 프로파일은 정보 밀도와 과업 단계에 따른 구조적 패턴을 드러냈고, behavioral trace만으로도 engagement의 역동을 포착할 수 있음을 시사합니다. 실무적으로는 이러한 지표를 기반으로 실시간 attention-aware learning analytics를 구현해, 집중 이탈 시 refocusing prompt를 띄우거나, VA 피크 직후의 어려운 구간을 타겟 복습으로 제안하는 적응형 인터벤션이 가능해집니다. 한계로는 head-gaze가 eye-tracking 대비 정밀도가 낮고, 지표가 세 가지에 국한되었으며, 특정 과제·표본에 기반했다는 점이 있는데요. 향후에는 gaze·손동작·생체 신호를 결합한 멀티모달 모델과, 주의 유도 인터벤션의 인과 효과 검증이 필요하다고 생각합니다. 그럼에도 로그 기반 지표로 학습 성과를 강력히 예측했다는 점에서, HCI와 learning analytics의 접점을 확장했다는 의의가 있습니다.
💡 VR 학습 서비스에서는 head-gaze 기반 VA와 PPVT를 실시간으로 로깅해, 집중 저하 구간에 맞춘 리마인더나 어려운 구간의 표적 복습을 자동 추천하는 적응형 피드백을 설계하는 것이 효과적입니다. 반면 단순 replay 횟수(VRF)는 성과 지표로 과신하지 않는 편이 안전합니다.
뉴스레터 구독
매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.