[챗엑사원 체험기] 챗GPT 대비 속도 아쉽지만 ‘리서치·추론’은 탁월

LG AI연구원은 지난 22일, ‘챗엑사원’의 베타 버전을 외부에 처음 공개했다. 사진=권은주 기자

글로벌 빅테크 기업들이 국내 LLM(대규모 언어모델) 시장을 잠식한 가운데 한국 기업들도 본격 반격에 나섰다. 특히 단순 대화형 AI를 넘어 실제 업무에 바로 투입할 수 있는 ‘업무형 AI’가 부각되면서 국내 AI 생태계 주도권 경쟁이 치열해지고 있다.

이런 흐름 속에서 LG AI연구원은 지난 22일, LG그룹 임직원 5만여 명이 내부적으로 활용해온 챗봇 서비스 ‘챗엑사원’의 베타 버전을 외부에 처음 공개했다. 이번 버전은 엑사원 3.5와 엑사원 딥이 적용된 모델로 이제 기업, 공공기관, 연구기관 사용자들도 직접 접속해 서비스를 체험할 수 있게 됐다.

기자 역시 회사 이메일 인증을 통해 챗엑사원에 가입한 뒤 이틀 간 오픈AI의 챗GPT와 비교하며 챗엑사원의 주요 기능과 강점, 그리고 차별화된 요소들을 다각도로 살펴봤다.

◇ 정보 정확도는 유사, 표현력·창의성은 챗GPT 우세

먼저 일반적인 정보 검색 및 질의응답에서는 두 모델 간 큰 차이는 없었다. 인물 정보 조회, 뉴스 요약, 일상 상식 질문 등에선 유사한 품질을 보였으나 응답속도에서 챗엑사원이 다소 느린 감이 있었다.

더불어 사용경험 전반에서 체감된 가장 큰 차이 점은 응답 방식과 사용자 편의성에 있었다. 챗엑사원은 응답이 지나치게 길거나 상세한 경우가 많았고, 한눈에 요점을 파악하기 어려운 경우도 있었다.

특히 블로그용 초안 작성이나 마케팅 문구 제안처럼 창의성과 속도를 요구하는 작업에서는 챗GPT에 비해 다소 무거운 인상을 줬다. 원하는 톤이나 스타일을 바로 반영하지 못하고, 반복된 지시를 줘야 수정되는 등 ‘다루기 쉬운 도구’로 보기엔 아직 미흡한 상황이다.

또 챗엑사원은 현재 이미지나 동영상 등 멀티모달 기능이 지원되지 않는다는 점도 아쉬운 부분이다. 시각자료를 활용한 콘텐츠 생성, 이미지 기반 질의응답, 영상 요약 등에서 활용도가 낮을 수밖에 없다. 이는 챗GPT의 프리미엄 모델이나 구글의 제미나이(Gemini) 등이 제공하는 기능과 비교해, 기업 사용자에게는 분명한 제약 요인이 될 수 있다.

실시간성이 요구되는 질문에 대해서는 두 모델 다 오류를 보였다. ‘최근 발생한 집중호우 피해 규모’를 묻자, 챗GPT는 신속하게 수치를 제시했지만 실제 통계에 비해 정확도가 크게 떨어졌다. 반면 엑사원은 챗GPT보다는 신중하고 보수적인 수치를 제시했다. 다만 엑사원도 일부 수치가 2022년 보도된 자료에 기반해 제공되는 등 완전한 최신 정보는 아니었다.

또 '오늘 여의도에서 볼 수 있는 영화를 추천해달라'는 질문에는 두 모델 다 익스펜더블, 더 마블스, 존윅4 등 2023년 영화를 추천했다. 결국 두 모델 모두 최신성이 중요한 질문에선 정보의 정확도와 실시간 반영 능력에서 일정한 한계를 보였다. 실제와 다른 수치를 제시하거나 과거 데이터를 그대로 인용하는 사례가 반복됐다.

◇ 심층 리서치로 업무 효율↑…챗엑사원, GPT에 ‘승’

챗엑사원이 내세우고 있는 핵심기능 중 하나는 ‘심층 리서치’ 기능이다. 단순한 정보 검색이 아니라, 기업 실무에 적합한 구조화된 결과물을 제공하는 데 최적화돼 있다.

심층리서치 기능 확인을 위해 기자는 22일 열린 ‘LG AI 토크콘서트’의 질의응답 녹음파일을 챗엑사원과 챗GPT 양쪽에 입력한 뒤 발언자 구분, 기술용어 해설을 포함한 정리를 요청했다.

챗엑사원의 심층 리서치 기능은 질문자에게 전체 발언의 분석 방향과 정리구조를 먼저 제시했다. 이후 기자 소속과 질문자·답변자 명단을 명확히 구분한 구조화된 녹취록을 제공했다. 반면 챗GPT는 초기 응답에서 요약본 형태로 정리한 뒤, 추가 요청을 받아야만 서술형 정리로 전환됐다.

챗엑사원의 '심층 리서치 기능'은 질문자의 요청에 진행 중인 과정을 보여주며 신뢰성을 높였다. 이미지=챗엑사원 화면 캡쳐

결과적으로 챗GPT는 유연한 문장 구성 능력과 대응력에서 강점을 보였지만, 초기 출력물은 사용자의 의도와 다소 거리가 있었다. 반면 챗엑사원은 업무 목적에 부합하는 정제된 결과물을 처음부터 제공하며, 업무 측면에서 높은 효율을 보였다.

◇ 챗엑사원은 구체적, 챗GPT는 원론적…AI 추론 능력 비교

두 모델의 추론 능력을 시험하기 위해 “미국이 일본에 대한 상호관세를 25%에서 15%로 낮춘 상황에서, 한국은 어떤 전략으로 임해야 협상에 유리할까?”라는 질문을 던졌다.

챗GPT는 다자간 무역환경 변화, 글로벌 공급망 복잡성 설명, 상호 윈윈 전략 공유 등의 일반론을 제시하며 협상 전략을 제안했다. 그러나 추상적이고 원론적인 수준에 머물렀고, 구체적인 대응 전략은 부족했다.

반면 엑사원은 해당 사안을 보다 분석적으로 접근했다. 미국과 일본 간 관세 완화 항목을 세분화한 뒤, 자동차·트럭, 농산물, 반도체 등의 분야별 시장 분석을 바탕으로 한국의 대응 전략을 제시했다.

이에 따라 방위비 분담, 공급망 협력, 농산물 시장 개방 여부 등 외교·산업 전반의 협상 카드까지 구체적으로 언급했다. 정책적 맥락을 고려한 실질적 대응 전략을 제시할 수 있는 능력에서, 엑사원의 강점이 드러났다.

챗엑사원은 추론과정을 실시간으로 볼 수 있다. 이미지=챗엑사원 화면 캡쳐

◇ ‘붉은사슴뿔버섯’은 독버섯? 식용버섯?... AI ‘환각증상’ 비교

초거대 언어모델(LLM)에서 공통적으로 나타나는 문제인 ‘환각(hallucination)’ 증상에 대해서도 두 모델을 비교해봤다. LLM의 환각증상은 사실이 아닌 정보를 사실처럼 생성하거나, 근거 없이 그럴듯한 답변을 생성하는 현상을 말한다. 이는 현재 대부분의 언어모델(ChatGPT, Claude, Gemini 등)이 가진 공통적인 한계 중 하나로 꼽힌다.

최근 논란이 된 ‘붉은사슴뿔버섯(Manitoba mushroom)’에 대해 질문했을 때 챗GPT는 “동충하초와 유사한 속성을 지녔으며 항암, 항염, 면역력 강화 효과가 있다”며 “한국에서도 건강식품으로 인기이며, 농가에서 재배가 늘고 있다”고 설명했다. 그러나 이는 모두 사실과 다른 내용으로, 해당 버섯은 맹독성을 지닌 식용 금지 품종이다.

붉은사슴뿔버섯에 대한 '챗엑사원'과 '챗GPT'의 답변 결과. 챗엑사원은 해당 버섯에 대해 독버섯이라 명시한 반면 챗GPT는 식용버섯이라 설명하고 있다. 이미지=두 모델 화면 캡쳐

반면 챗엑사원은 “붉은사슴뿔버섯은 맹독성 독버섯으로 섭취 시 치명적일 수 있다”고 정확하게 명시했다. 더불어 사슴의 뿔을 닮은 외형 때문에 붙은 이름, 동충하초나 덜 자란 영지버섯과 혼동되기 쉽다는 점 등도 함께 설명했다. 기자의 요청에 따라 농촌진흥청, 국립산림과학원, 위키백과 등 신뢰 가능한 국내외 출처를 함께 제시해 답변의 신뢰도를 높였다.

LG AI연구원은 환각 문제를 최소화하기 위해 ‘가드레일 모델’과 ‘도메인별 피드백 시스템’을 도입했다고 밝혔다. 이는 기업별·산업별 실제 데이터를 학습하는 ‘데이터 파운더리’ 기반으로 구축돼, AI의 정확성을 체계적으로 향상시키는 구조라는 설명이다.

이번 분석결과 챗엑사원이 사용성과 응답 표현에서 다소 아쉬운 점이 있었지만, 기업형 AI로서 실무 적합성, 분석력, 정제된 결과물 생성 면에서는 의미 있는 경쟁력을 보여줬다. 특히 ‘환각증상’ 억제, 심층 리서치, 추론능력 등은 실질적 업무 도구로서의 가능성을 볼 수 있었다.

Search