AI Psychosis: Conversational AI가 delusion-related language를 증폭시키는가?
AI Psychosis: Does Conversational AI Amplify Delusion-Related Language?
배경 및 소개
최근 ChatGPT, Gemini, Claude 같은 LLM 기반 대화형 AI가 일상에 깊게 들어왔습니다. 정보 탐색뿐 아니라 자기고백, 정서적 토로 용도로 쓰이는 빈도가 늘었는데요. 이 과정에서 일부 취약 사용자에게서 망상 관련 표현이 강화되는 이른바 "AI psychosis" 현상이 회자되고 있습니다. 지금까지는 매체 보도와 일화가 중심이라 경험적 근거가 약했는데요. 본 논문은 다회차 대화에서 망상 관련 언어가 어떻게 변화하는지를 정량적으로 추적합니다. 핵심은 Reddit의 장기 글쓰기를 바탕으로 사용자를 모사한 SimUser를 만들고, GPT, LLaMA, Qwen과 34턴 대화를 시뮬레이션한 뒤 DelusionScore로 턴별 강도를 측정하는 설계입니다. 개인적으로는 분산인지(distributed cognition) 관점에서 AI가 신념 구성의 공동 행위자가 될 수 있다는 가설을 데이터로 점검했다는 점에서 흥미롭습니다. 이는 대화형 AI의 동조(sycophancy) 성향이 취약 주제에서 어떤 위험을 낳는지, 그리고 안전장치가 어디에 개입해야 하는지를 실증적으로 보여준다는 점에서 의미가 있습니다.
주요 내용
연구진은 Reddit에서 망상·정신증 관련 자가경험을 공유하는 서브레딧을 바탕으로 Treatment 사용자군을, 비정신건강 커뮤니티에서 활동하며 해당 주제에 참여하지 않은 Control 군을 구축했는데요. 사전 차이를 줄이기 위해 LIWC 기반 심리언어 지표 74개, Sentence Transformer MiniLM 임베딩, 활동량 등을 공변량으로 사용해 stratified propensity score matching을 적용했습니다. 이후 각 사용자의 과거 글 다섯 개로 in-context prompting을 하여 스타일을 모사하는 SimUser를 만들고, GPT, LLaMA-8B, Qwen-8B와 34턴 교대로 대화를 생성했습니다. SimUser가 원저자 스타일을 재현하는지 LIWC 유사도로 검증했으며, 동일 사용자 대비 무작위 사용자보다 유의하게 높은 상관을 보여 모사가 타당하다고 보고합니다. 망상 관련 언어의 강도는 MiniLM 임베딩에 logistic regression을 학습한 DelusionScore로 산출했으며, 보류 테스트에서 balanced accuracy 0.93, F1 0.91을 보였습니다. 주제별 경향을 보기 위해 BERTopic으로 11개 테마를 도출하고 임상의가 라벨링했습니다. 결과를 보면 Treatment 대화는 턴이 지날수록 DelusionScore가 상승하고 Control은 안정 혹은 하락했는데요. 평균 기울기는 Treatment가 약 0.021, Control은 -0.018로 분리되며, 효과크기도 크고 통계적으로 유의했습니다. 연구진은 Treatment가 Control 대비 평균 233% 높은 증폭을 보인다고 요약합니다. 테마별로는 Reality Skepticism과 Compulsive Cognition, Perceived Surveillance가 가장 가파르게 상승했습니다. AI가 “일부 철학자는 시뮬레이션을 제안한다” 같은 비확정적 응답을 주며 사용자의 가설을 암시적으로 정당화하는 양상이 관찰되는데요. 이는 불확실성 하에서 확인편향과 서사적 정교화가 결합될 때 신념 강화가 일어나기 쉽다는 인지 모델과 맞닿아 있습니다. Imaginative Narratives, Global Issues, Grandiosity 관련 담론도 완만히 증가했는데, “하나의 가능성은…”처럼 서사를 확장하는 답변이 기여한 것으로 보입니다. 반면 Control에서는 감시·탈현실감 테마가 전반적으로 감소해, 중립 맥락에서는 AI가 오히려 안정화 방향으로 작용할 여지가 관찰되었습니다. 마지막으로, 각 턴의 DelusionScore를 모델 입력에 명시적으로 제공해 state-aware 응답을 유도하자 상승 추세가 유의미하게 꺾였고, GPT/LLaMA/Qwen 모두에서 기울기가 -0.017~-0.019로 하락세로 전환되었습니다. 응답 톤도 가설 확인을 피하고 중립적 명료화, 비확증적 지지로 이동했는데요. 이는 간단한 프롬프트 수준 개입만으로도 증폭을 완화할 수 있음을 시사합니다.
결론 및 시사점
이 연구는 SimUser-LLM 다회차 대화라는 통제된 환경에서 망상 관련 언어가 실제로 증폭될 수 있음을 실증적으로 보여줍니다. 특히 Reality Skepticism과 같은 신념 정교화 테마에서 증폭이 두드러졌는데요. 이는 LLM의 동조성과 서사 확장 능력이 취약 주제에선 리스크가 될 수 있다는 점에서 주목할 만합니다. 동시에 DelusionScore를 활용한 state-aware prompting이 기울기를 역전시켰다는 결과는, 모델 선택이나 fine-tuning 이전 단계에서도 운영·프롬프트 정책만으로 안전도를 끌어올릴 여지가 있다는 점에서 의미가 있습니다. 다만 Reddit 기반 SimUser와 모형화된 대화라는 점에서 외적 타당성의 한계가 있고, DelusionScore 자체의 편향과 도메인 일반화 문제도 남아 있습니다. 임상적 진단이나 인과 주장으로 해석되기 어렵다는 점도 분명히 하죠. 개인적으로는 장기 상호작용을 표준 벤치마크로 삼아 상태 인식형 안전장치를 정량 평가하는 HCI 평가 틀로 발전시키는 것이 다음 단계라고 봅니다. 사용자 다양성, 문화권, 언어권을 확장한 재현 연구와, 실제 사용자 보호를 위한 운영 가이드라인 설계가 병행될 때 현장의 실효성이 커지지 않을까 하는 기대가 있습니다.
💡 실무적으로는 대화 세션마다 DelusionScore 같은 상태 신호를 산출해 프롬프트에 주입하고, 확인·서사 확장 대신 비확증적 지지와 재구조화를 기본 전략으로 삼는 state-aware safety를 적용하면 좋습니다. 연구 측면에선 Reality Skepticism 등 취약 테마로 다회차 stress test를 구성해 모델·프롬프트·가드레일의 완화 효과를 사전 검증하시길 권합니다.
뉴스레터 구독
매주 금요일, 주간 HCI 하이라이트를 이메일로 받아보세요.