SKT, 자체 거대언어모델 기반 멀티모달·범용 문서 해석 기술 공개

장하민

입력 2025.07.29 09:36

이 기사를 공유합니다

SK텔레콤은 자사의 LLM 'A.X(에이닷 엑스)'를 기반으로 한 시각·언어모델(VLM)과 범용 문서 해석 기술을 공개했다고 29일 밝혔다.

SKT가 오픈소스 커뮤니티 허깅페이스에 공개한 모델은 'A.X 인코더'와 'A.X 4.0 VL Light' 2종으로, 모두 학술 연구 및 상업적 활용이 가능하다.

SKT는 7월 한 달간 공개한 대규모 학습 기반 A.X 4.0(표준·경량), 프롬 스크래치 방식의 A.X 3.1(표준·경량)에 이어 총 6종의 모델을 선보이게 됐다. SKT는 추후 A.X 4.0 추론형 모델도 추가 공개할 예정이다.

A.X 인코더는 1억4900만개의 매개변수를 기반으로 작동하며, KLUE 기준 평균 85.47점을 기록해 기존 공개모델 'RoBerTa-base(80.19점)'를 능가했다. 최대 1만6384개의 토큰을 처리할 수 있어 기존 대비 3배 빠른 추론속도와 2배 빠른 학습속도를 구현한다.

이 기술은 대형언어모델(LLM) 학습뿐 아니라 다양한 산업의 문서 처리에도 활용 가능하다.

A.X 4.0 VL Light는 70억 매개변수로 학습된 시각·언어모델로, 표·그래프·도면 등 복합 정보를 이해하는 멀티모달 성능이 특징이다. 한국어 시각 벤치마크에서 79.4점, KoBizDoc 89.8점, K-Viscuit 80.2점을 기록해 대형 모델 대비 효율성과 성능 모두를 입증했다. 동일한 입력 시 Qwen2.5-VL32B 대비 약 41% 적은 텍스트 토큰을 사용해 비용 절감에도 기여할 수 있다.

김태윤 SK텔레콤 파운데이션 모델 담당은 "독자적인 기술력 확보가 소버린 AI의 핵심인 만큼, 자체 역량을 높이고 컨소시엄 기업들과의 협업에도 박차를 가해 글로벌 최고 수준의 AI 경쟁력을 확보할 것"이라고 말했다.

장하민 alvin_jang@ngetnews.com