[경제일보] KT가 한국 사회와 문화적 특성을 반영한 멀티모달 인공지능(AI) 안전성 평가 체계를 공개했다. 생성형 AI 확산으로 텍스트를 넘어 이미지와 음성까지 동시에 이해하는 멀티모달 AI 활용이 늘어나는 가운데 국내 환경에 맞는 안전성 검증 기준을 마련해 AI 신뢰성 확보에 나서겠다는 전략으로 풀이된다.
16일 KT는 고려대학교와 공동으로 개발한 멀티모달 대형언어모델(MLLM) 안전성 벤치마크 'KSAFE-MM'을 공개했다고 밝혔다.
최근 생성형 AI 시장은 텍스트 중심 서비스에서 이미지와 음성, 영상까지 통합적으로 처리하는 멀티모달 AI 중심으로 빠르게 진화하고 있다. 다만 AI 모델의 활용 범위가 확대될수록 허위정보 생성, 편향성, 유해 콘텐츠 노출, 개인정보 침해 등 안전성 이슈 역시 함께 커지고 있는 것으로 알려졌다.
특히 글로벌 AI 기업들이 개발한 안전성 평가 기준은 영어권 문화와 사회 환경을 중심으로 설계돼 국내 이용 환경과 문화적 특수성을 충분히 반영하지 못한다는 한계도 제기돼 왔다.
이에 KT와 고려대는 해당 문제를 해결하기 위해 'KSAFE-MM'을 공동 개발했다고 설명했다. 'KSAFE-MM'은 한국 사회의 문화적·사회적 맥락을 반영한 멀티모달 AI 안전성 평가 체계로, 글로벌 공통 위험 요소를 한국 문화 환경에 맞게 재구성한 'KSAFE-MM-G'와 전세 사기, 독도 분쟁 등 국내 특수 이슈를 반영한 'KSAFE-MM-C'로 구성된다. 전체 평가 데이터는 총 1만4135개 샘플 규모다.
연구진은 해당 벤치마크를 활용해 구글의 '젬마'와 네이버의 '하이퍼클로바 X'를 비롯한 12개 글로벌 멀티모달 AI 모델의 안전성을 검증했다.
이번 연구의 가장 큰 특징은 벤치마크 구축 과정을 자동화한 것이다. 기존 AI 안전성 벤치마크는 전문가가 데이터를 수집하고 검수하는 방식이 대부분으로 많은 비용과 시간이 필요했다. 반면 KSAFE-MM은 현지 커뮤니티 기반 민감 주제 수집, 템플릿 기반 질의 생성, 합성 이미지 제작, 탈옥 질의 생성까지 전 과정을 자동화한 4단계 파이프라인을 구축했다.
KT와 고려대 연구진은 동일한 파이프라인을 일본어 환경에 적용한 파일럿 프로젝트 'JSAFE-MM-C'도 진행했다. 연구진은 이를 통해 해당 프레임워크가 한국뿐 아니라 다양한 국가와 문화권에서도 활용 가능한 범용 안전성 평가 체계임을 확인했다고 설명했다.
업계에서는 생성형 AI 규제 논의가 본격화되는 가운데 AI 안전성 평가 체계의 중요성이 더욱 커질 것으로 전망하고 있다. 특히 기업들은 AI 서비스 출시 전 위험 요소를 점검하는 레드팀 테스트와 가드레일 모델 검증 수요가 늘어나고 있어 실질적인 활용도가 높을 것으로 분석된다.
KT는 이번 연구 결과를 실제 AI 서비스 안전성 검증과 모델 평가, 위험 분석 등에 활용할 계획이다. 연구 결과와 벤치마크 데이터는 '아카이브'와 '허깅페이스'를 통해 공개돼 학계와 산업계가 자유롭게 활용할 수 있다.
KT는 최근 다국어 AI 안전성 벤치마크 'XL-세이프티벤치'를 공개한 데 이어 KSAFE-MM을 선보이며 한국형 AI 안전성 평가 체계 구축을 확대하고 있다. KT는 책임 있는 AI 전담 조직을 중심으로 안전성 분류 체계와 평가 로직 개발 등 관련 연구를 지속 추진한다는 방침이다.
박재형 KT AX미래기술원 프론티어 AI Lab장 상무는 "안전성 벤치마크의 공개는 단순한 데이터 배포를 넘어 AI 안전성 연구 생태계 전반이 함께 발전할 수 있는 기반을 만드는 일"이라며 "KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.




































![[아시아권 뉴스] 중국, 양자 소재·전기선박 앞세워 첨단산업 판 키운다](https://image.ajunews.com/content/image/2026/06/15/20260615172104981939_388_136.png)


댓글 더보기