HiFiGaze: Screen Content Knowledge를 이용한 Eye Tracking 정확도 향상

HiFiGaze: Improving Eye Tracking Accuracy Using Screen Content Knowledge

arXiv2026-03-20Taejun Kim, Vimal Mollyn, Riku Arakawa, Chris Harrison

배경 및 소개

최근 소비자용 기기에서 전용 IR illuminator나 특수 카메라 없이도 정확한 시선추적을 하려는 연구가 다시 주목받고 있습니다. 기존 appearance-based 접근은 스마트폰/랩탑의 전면 RGB 카메라만으로 동작하지만, 보정 없이 평균 약 2 cm 오차 수준에 머무는 한계가 있었는데요. 반면 PCCR 같은 model-based 방식은 정확하지만 추가 하드웨어가 필요합니다. HiFiGaze는 이 간극을 좁히려는 시도로, 최신 기기의 4K급 전면 카메라가 눈에 비친 화면의 2D 반사를 포착할 수 있다는 점에 착안합니다. 관건은 화면 콘텐츠가 천차만별이라 단순한 ‘glint’로는 안정적 분리가 어렵다는 점인데, 기기 스스로 화면에 무엇이 표시되는지 ‘안다’는 사실을 활용해 반사를 강건하게 분할하고, 그 위치·크기에서 screen-relative gaze를 바로 읽어내는 전략을 제시합니다. ScreenGlint가 사실상 흰 화면에서만 동작했던 제약을 넘었다는 점에서 의미가 있습니다. 개인적으로는 고해상도 카메라 보급이라는 하드웨어 트렌드를 HCI 알고리즘 설계에 정교하게 접목한 사례라고 볼 수 있습니다.

주요 내용

HiFiGaze의 핵심은 eye image에 담긴 corneal reflection을 screen content 지식과 정합시켜, pupil 중심 대비 반사 상의 위치·크기를 ‘Reflection Vector’로 추출하고 이를 gaze 예측에 직접 활용하는 것입니다. 파이프라인은 MediaPipe로 얼굴/홍채 초기 탐지를 한 뒤, GrabCut과 RANSAC, 원 적합으로 iris center와 직경을 안정화하고, 눈 패치를 정규화해 뽑습니다. 동시에 현재 디스플레이 중인 화면을 Gaussian blur 후 소형 Screen Thumbnail로 만들고, iris 내부 검색영역에 이 썸네일을 다중 스케일로 컨볼브해 Reflection Heatmap을 얻습니다. 최적 매칭의 중심과 윈도 크기에서 Reflection Vector를 계산해, Eye Crops와 함께 모델 입력으로 사용합니다. 아키텍처는 Eye Bounds를 MLP로, 좌우 Eye Crops를 MobileNetv4 백본으로 임베딩하고, Screen Thumbnail/Reflection Heatmap은 경량 CNN으로 압축, 여기에 Reflection Vector를 직결해 최종 MLP로 screen-space gaze를 회귀합니다. 화면이 매우 어두워 반사가 사라질 때는 Reflection Vector를 마스킹합니다. iPhone 14 Pro Max에서 전처리 포함 프로토타입은 약 100 ms/frame(약 10 FPS)로 동작했고, 핵심 추론은 CoreML 변환 시 0.78 ms로 가볍습니다. 학습은 PyTorch 기반 leave-one-participant-out로, MobileNetv4를 ImageNet 초기화해 Adam으로 20 epoch 훈련했습니다. 화면 다양성은 WebUI(약 30만 모바일 웹 페이지)에서 무작위 샘플링으로 확보했고, 데이터 수집용 iOS 앱은 smooth pursuit 경로를 사용해 연속적인 ground truth를 얻되, target 자체 신호가 반사에 새지 않도록 저대비 디자인과 교차 디졸브(200 ms)로 오염을 차단했습니다. 사용자 연구는 22명(앉은/선 자세 교차, 자연스러운 거리·자세 변화 허용)에서 총 약 17.7만 인스턴스를 수집했습니다. 안경은 이번 1차 연구에서 제외했는데요. 결과적으로 전통적 Eye Crops baseline은 평균 2.00 cm 오차를 보였고, screen content를 활용한 변형들은 모두 성능이 향상되었습니다. 그중 Eye Crops + Reflection Vector가 가장 성능이 좋아, iPhone 14 Pro Max에서 보정 없이 평균 1.64 cm를 달성했는데요. baseline 대비 약 18% 오차 감소로, 앱 아이콘 크기 수준의 조작을 실용적으로 겨냥할 수 있는 수치입니다. 흥미롭게도 속눈썹/윗눈꺼풀 가림으로 화면 하단凝視 때 반사가 종종 가려지는 문제가 있어, 카메라가 기기 하단에 있을 때 추가로 10~20% 개선되는 보조 실험 결과도 제시했습니다. 이는 단순 알고리즘 개선뿐 아니라 카메라 배치라는 하드웨어 디자인 관점까지 시사점을 넓힌다는 점에서 흥미롭습니다.

결론 및 시사점

HiFiGaze는 ‘기기는 자신의 화면을 안다’는 전제를 gaze estimation에 정교하게 주입해, commodity 카메라만으로 model-based에 가까운 신호(Reflection Vector)를 끌어낸 것이 핵심인데요. 이는 추가 센서 없이도 보정 없는 gaze 정확도를 실질적으로 끌어올렸다는 점에서 의미가 있습니다. UI 적응, 접근성, 시선 기반 상호작용, 주의분산 분석 등 HCI 응용의 문턱을 낮출 수 있겠다고 봅니다. 물론 한계도 분명합니다. 매우 어두운 화면에서는 반사가 약해지고, 속눈썹·눈꺼풀 가림과 머리자세 변화에서 강건성이 더 필요합니다. 안경 사용자, 다양한 조명/피부·눈 특성에 대한 일반화도 후속 데이터셋과 도메인 적응이 요구됩니다. 전처리 파이프라인이 Python 프로토타입이라 상용 구현 시 속도 여유는 늘겠지만, 모바일 온디바이스 최적화와 전력 관리가 관건입니다. corneal reflection을 적극 활용하는 만큼 개인 프라이버시와 생체정보 처리 가이드라인도 함께 설계돼야 하겠고요. 개인적으로는 소규모 per-user 적응 보정과 dark mode 인지형 반사 강화(예: 소프트 패턴 주입) 같은 UI-알고리즘 공동 최적화가 다음 단계가 될 것이라 생각합니다. 카메라 하단 배치에서의 성능 이득은 스마트폰·랩탑 하드웨어 디자인에도 파급이 있을 가능성이 있어, 제조사 협업 연구로 이어지지 않을까 하는 기대가 있습니다.

💡 실무에서는 Eye Crops와 screen content로부터 계산한 Reflection Vector를 결합하는 입력 설계를 우선 검토하면 좋습니다. 다양한 화면 밝기·패턴을 포함한 데이터 수집과, 카메라 하단 배치 혹은 하단 시야 확보 설계가 정확도·강건성을 동시에 끌어올리는 실질적 포인트입니다.

뉴스레터 구독

매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.