Annenberg School for Communication의 연구에 따르면, OpenAI, DeepSeek, Google 등의 AI 모델 간에 증오 표현을 감지하는 데 상당한 차이가 있는 것으로 나타났으며, 이는 콘텐츠 검토 및 온라인 커뮤니티 안전에 심각한 영향을 미칠 수 있습니다.
플랫폼들이 정치적 양극화를 억제하고 정신 건강을 보호하려는 노력 속에서, 인공지능은 온라인 콘텐츠, 특히 증오 표현을 통제하는 핵심 요소로 부상했습니다. 그러나 펜실베이니아 대학교 아넨버그 커뮤니케이션 스쿨의 최근 연구는 중요한 문제를 지적합니다. 주요 AI 모델들이 증오 표현을 평가하는 방식이 일관성이 부족하다는 것입니다.
"민간 기술 기업들이 디지털 공공 영역에서 허용되는 발언의 실질적인 결정권자가 되었지만, 일관된 기준 없이 그렇게 하고 있습니다."라고 앤넨버그 커뮤니케이션 스쿨의 준교수인 입타흐 렐케스가 보도자료를 통해 밝혔습니다.
Lelkes와 Annenberg의 박사과정 학생인 Neil Fasching은 AI 콘텐츠 검토 시스템에 대한 최초의 대규모 비교 분석을 수행하여 증오 표현을 평가하는 데 있어서 일관성을 조사했습니다.
그들의 연구, 출판 미국 계산언어학회의 연구 결과에서는 3.5가지 주요 모델을 분석했습니다. OpenAI의 두 모델, Mistral의 두 모델, Claude 3 Sonnet, DeepSeek VXNUMX, Google Perspective API입니다.
연구진은 중립적 표현과 비방적 표현을 포함해 종교, 장애, 나이 등과 관련된 다양한 용어를 사용하여 1.3개 그룹을 망라하는 무려 125만 개의 합성 문장을 분석했습니다.
연구의 주요 내용
1. 모델 간 불일치한 결정
민주주의와 정보 그룹의 회원인 파싱은 보도자료에서 "연구에 따르면 콘텐츠 검토 시스템은 동일한 증오 표현 콘텐츠를 평가할 때 엄청난 불일치가 발생한다는 것이 밝혀졌습니다. 일부 시스템은 콘텐츠를 유해하다고 표시하는 반면 다른 시스템은 허용 가능한 것으로 간주합니다."라고 밝혔습니다.
극성화 연구실(Polarization Research Lab)과 정보 네트워크 및 민주주의 센터(Center for Information Networks and Democracy)의 공동 소장이기도 한 렐케스는 이러한 불일치가 대중의 신뢰를 약화시키고 편향에 대한 인식을 조성할 수 있다고 덧붙였습니다. 이 연구는 모델 내적 일관성에 차이가 있음을 발견했는데, 이는 탐지 정확도와 과도한 완화를 피하는 것 사이의 균형을 맞추는 과제를 강조합니다.
2. 특정 그룹에 대한 뚜렷한 불일치
파싱은 "이러한 불일치는 특정 인구통계학적 집단에서 특히 두드러지며, 일부 커뮤니티는 다른 커뮤니티보다 온라인 피해에 더 취약합니다."라고 덧붙였습니다.
연구에 따르면 성적 지향, 인종, 성별에 따라 분류된 집단의 증오 표현에 대한 평가는 더 일관적이었지만, 교육 수준, 개인적 관심사, 경제적 계층에 따라 분류된 집단의 경우 평가 변동성이 증가했습니다.
3. 중립 문장과 긍정 문장의 다른 처리
특히, 소수의 문장은 증오 표현의 오인식 여부를 확인하기 위해 중립적이거나 긍정적인 내용으로 구성되었습니다. 클로드 3.5 소네트(Claude XNUMX Sonnet)와 미스트랄(Mistral)의 전문화된 콘텐츠 분류 시스템처럼 모든 비방을 유해한 것으로 분류하는 시스템도 있지만, 맥락과 의도에 초점을 맞춘 시스템도 있습니다.
저자들은 모델이 사례를 분류하는 방식에 있어서 중간적 입장이 거의 없이 명확한 구분이 있는 것에 놀랐습니다.
