
엔씨소프트의 인공지능(AI) 전문 자회사인 NC AI는 자체 개발 멀티모달 모델인 ‘바르코 비전(VARCO-VISION) 2.0’을 오픈소스로 공개했다.
이번 모델은 이미지와 텍스트를 함께 이해하고 복잡한 문서나 표, 차트도 효과적으로 처리할 수 있는 것이 특징이다. 또 한국어와 영어도 자연스럽게 이해할 수 있으며, 텍스트 생성 능력과 한국 문화에 대한 이해도는 이번 모델에서 크게 향상됐다.
이번에 공개된 바르코 비전 2.0 모델은 ▲14B ▲1.7B ▲1.7B OCR ▲비디오 임베딩(embedding) 등 4종이다. 이 가운데 먼저 14B는 벤치마크 결과 글로벌 오픈소스 비전 언어모델 중 최고 성능으로 알려진 InternVL3-14B와 알리바바의 Ovis2-16B, Qwen2.5-VL 7B를 능가하는 성과를 보였다. 다중 이미지 분석과 고도화된 추론이 필요한 업무용 환경에 최적화돼있다는 평가다.
경량 모델인 1.7B 모델은 스마트폰이나 PC 등 개인 기기에서도 원활하게 구동이 가능하다. 1.7B OCR은 이미지 내 문자를 인식하는 작업에 특화된 모델로, 기존 오픈소스 OCR 모델 대비 한국어 OCR 능력이 더 높은 것으로 확인됐다. 특히 한국어와 영어가 혼합된 상황에서도 높은 인식 정확도를 보였다.
비디오 임베딩 모델은 이용자의 자연어 질의에 따라 동영상 콘텐츠를 숫자 데이터로 변환해 저장하고, 이를 기반으로 관련성 높은 이미지나 비디오를 검색하는 데 특화됐다.
이번에 공개된 모델은 복잡한 보고서·계약서·청구서 등의 자동 분석 및 디지털화, 자동화 분야에서 광범위하게 활용될 수 있다.
NC AI는 이번에 공개한 4종의 모델을 모두 연구용 오픈소스로 공개한다. 이를 통해 자체 기술력을 입증하고 기업과 개인, 공공기관이 누구나 이용할 수 있게 해 국내 AI 생태계 발전에 이바지하겠다는 의지다.
이연수 NC AI 대표는 “기술 고도화로 세계적 흐름이 텍스트만 처리하는 언어모델을 넘어 비전 모델을 함께 활용하는 비전 언어모델로 전환되고 있다”고 말했다. 이어 “이번 4종 모델 공개를 통해 미디어와 게임, 패션 등 버티컬 AI로 기존 국내 멀티모달 AI를 선도하는 NC AI가 비전 언어모델에서도 한국의 주권을 지킬 수 있는 가능성을 확인했다”고 강조했다.