LG, 멀티모달 AI ‘엑사원 4.5’ 공개...텍스트·이미지 동시 이해·추론

LG AI연구원이 개발한 엑사원 4.5와 엑사원 4.0 비교. 자료=LG AI연구원

LG AI연구원이 차세대 멀티모달 AI 모델 ‘엑사원(EXAONE) 4.5’를 공개하며 글로벌 경쟁력 확보에 나섰다. 이번 모델은 텍스트와 이미지를 동시에 이해하고 추론할 수 있는 비전-언어 모델(VLM)로, 자체 개발한 비전 인코더와 거대언어모델(LLM)을 하나의 구조로 통합한 것이 특징이다. LG는 이를 통해 산업 현장에서 실제로 다루는 계약서, 기술 도면, 재무제표, 스캔 문서 등 복합 문서를 정확히 읽고 해석하는 능력을 강화했다고 밝혔다.

엑사원 4.5는 성능 평가에서도 두각을 나타냈다. STEM(과학·기술·공학·수학) 분야 성능을 측정하는 5개 지표 평균에서 77.3점을 기록하며 오픈AI GPT5-mini(73.5점), 앤트로픽 클로드 소넷 4.5(74.6점), 알리바바 큐웬3 235B(77.0점)를 앞섰다. 또 문서 이해 및 추론, 인포그래픽 분석 등 13개 지표 평균에서도 경쟁 모델을 상회했다. 특히 코딩 성능을 평가하는 라이브코드벤치 v6에서는 81.4점을 기록해 구글 젬마(Gemma) 4(80.0점)를 넘어섰으며, 복잡한 차트 분석 능력을 평가하는 ChartQA Pro에서도 62.2점을 달성해 글로벌 경쟁력을 입증했다.

이번 모델은 330억개 파라미터 규모(33B)로, 지난해 공개된 ‘K-엑사원’의 약 7분의 1 크기임에도 텍스트 이해 및 추론 영역에서 동등한 성능을 달성했다는 점도 주목할 만하다. 이는 LG AI연구원이 자체 개발한 하이브리드 어텐션 구조와 멀티 토큰 예측 기반 고속 추론 기술을 적용한 결과다. 이와 함께 한국어와 영어뿐 아니라 스페인어, 독일어, 일본어, 베트남어까지 공식 지원 언어를 확장하며 글로벌 활용성을 높였다.

LG AI연구원은 엑사원 4.5를 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 공개해 연구·학술·교육 목적으로 활용할 수 있도록 했다. 아울러 청년 AI 전문가 육성 프로그램 ‘LG 에이머스(Aimers)’ 해커톤을 통해 경량화 모델 개발을 주제로 청년들의 AI 역량 강화에도 기여하고 있다.

이진식 엑사원랩장은 “엑사원 4.5는 텍스트를 넘어 시각 정보까지 이해하는 멀티모달 시대의 진입을 보여주는 모델”이라며 “향후 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다”고 밝혔다.

LG AI연구원은 한국의 역사와 문화, 사회적 맥락을 깊이 이해하는 AI로 발전시키기 위해 동북아역사재단 등 국내 기관과 협업도 추진하고 있다. 김명신 신뢰안전사무국 총괄은 “역사와 문화적 민감성을 깊이 이해하는 것은 단순한 언어 능력과는 차원이 다른 문제”라며, “엑사원은 자체 설계한 AI 위험 분류체계(K-AUT)를 기반으로 풍부한 표현력과 신뢰성을 동시에 확보한 AI로 진화해 나갈 것”이라고 강조했다.

이번 발표는 LG AI연구원이 멀티모달 AI의 글로벌 경쟁 구도 속에서 기술적 우위를 확보하고, 나아가 산업 현장에서 실질적 가치를 창출하는 ‘피지컬 인텔리전스’로 발전시키려는 전략적 행보로 평가된다.

Search