2024.05.11 (토)

  • 흐림동두천 16.9℃
  • 구름많음강릉 26.6℃
  • 서울 18.4℃
  • 흐림대전 23.5℃
  • 구름많음대구 24.0℃
  • 구름많음울산 22.3℃
  • 흐림광주 23.5℃
  • 구름많음부산 21.1℃
  • 흐림고창 22.4℃
  • 흐림제주 23.9℃
  • 흐림강화 16.7℃
  • 흐림보은 23.2℃
  • 구름많음금산 23.7℃
  • 흐림강진군 22.2℃
  • 흐림경주시 23.5℃
  • 구름많음거제 20.4℃
기상청 제공

경제


빅데이터 새로운 길을 찾다

정부는 빅데이터 아카데미 수료생들이 현업 복귀 후 다양한 빅데이터 프로젝트에 참여해 창업·제품 개발·비용절감 기여 등 가시적인 성과를 보이고 있는 것으로 조사됐다고 밝혔다. 연수생 대상의 설문조사 결과 응답자의 74.5%가 연수 후 빅데이터 프로젝트를 수행하고 있다고 응답했으며, 실제로 공공·민간에서 추진 중인 다양한 빅데이터 프로젝트가 투입돼 기술 검증을 하는 등 본격적인 사업에 착수한 것으로 조사됐다.

 

미래창조과학부가 지원하는 빅데이터 아카데미 수료생들이 현업 복귀 후 다양한 빅데이터 프로젝트에 참여해 창업, 제품 개발, 비용절감 기여 등 가시적인 성과를 보이고 있는 것으로 나타났다. 지난 20136DB진흥원 내 설립한 빅데이터 아카데미는 재직자(평균 실무경력 11) 대상의 빅데이터 실무인력 양성 프로그램으로, 그동안 빅데이터 기술·분석 분야에서 403(2013202, 2014201)을 양성했다.

 

미래부 강성주 정보화전략국장은 빅데이터는 벤치마킹이 용이해 이러한 우수 적용사례가 확산될수록 빅데이터 도입을 준비하는 기업에게는 큰 도움이 될 것이라며 “ITRC(IT연구센터), 빅데이터분석활용센터 등을 지속 활용하고 제조·의료·금융 등 산업 분야별 실무인력을 양성하기 위한 전문화된 교육과정을 지원해 빅데이터 이용활성화를 적극 지원하겠다고 밝혔다.

 

빅데이터 아카데미를 수료한 수료생 김모씨는 국내 최초로 빅데이터 기반의 쇼핑몰을 구축해 운영 중이며 파일럿 프로젝트 기반으로 빅데이터 아카데미에서 배운 지식과 정보를 활용할 계획이다. 수료생 이모씨는 빅데이터 아카데미의 교육 과정을 이해하기 위해서는 전산개발 및 시스템 운용 경험이 필요하다고 말하면서 기술전문가과정을 통해 대용량 데이터 처리와 수집 등에 대해 교육을 받으면서 이를 활용하는 서비스를 할 수 있게 됐다고 설명했다.

 

원래 연구원이었던 이모씨는 최근 사업부서에서 연구부서로 전환됐지만 앞으로 기술개발의 핵심이 빅데이터가 될 것이라고 말했다. 또 분산저장처리 아키텍처나 병렬처리 아키텍처를 알게 되어 데이터 처리 비용을 절감하고 데이터 처리 속도도 빨라지게 됐다고 덧붙였다. 이어 빅데이터 아카데미에 아쉬운 점이 있다면 실무프로젝트의 내실이 부족해 보이므로 실제적 활용 주제를 정해서 했으면 좋겠다고 제안했다.

 

다양한 파일럿 프로젝트 시도

   

미래창조과학부에 따르면 빅데이터 아카데미 수료자들은 빅데이터를 활용한 다양한 시도를 하고 있는 것으로 나타났다. 빅데이터를 활용한 다양한 시도의 사례는 다음과 같다. 14천만건이 넘는 증권사 고객 정보 데이터를 분석해 증권사 고객의 특성을 파악하고 고객군을 세분화해 고객군 별 프로파일을 바탕으로 최적의 마케팅 방향을 설정하는 증권사 빅데이터 활용 고객 분석이다.

 

또 윈도우 보안 이벤트 로그를 실시간으로 수집·통합·분석해 보안 위협 요소를 사전에 발견·대응 할 수 있는 분석 시스템인 윈도우 서버 감사 로그 분석 시스템과 사회안전 기반시설(경찰서, 지구대, 방범대 등)과 교육기관(학교, 유치원) 등의 위치 데이터를 분석해 범죄로부터 안전 사각지대를 찾아내 사전에 범죄 예방조치를 취할 수 있도록 범죄율과 사회안전 기반 시설과의 상관관계를 분석한 프로젝트인 기반시설환경과 범죄율 상관관계분석이다.

 

이 외에도 유·초등생을 둔 직장인 부모가 이사를 할 때, 교육 환경이 우수한 지역을 검색해 자신의 상황에 맞는 최적의 위치를 찾는데 도움을 주는 분석 시스템인 주거·교육환경 분석을 통한 자녀교육특구모델 찾기와 866종의 국내 문학 신간 서적의 출간 후 14일까지의 판매 데이터를 회귀분석 기법으로 분석해 서점의 MD의 경험과 직감에 의존해 예측하던 서적 판매량을 더 정확하게 예측해서 인터넷 서점의 재고 부담 해소 등 효율화를 도모하는 신간서적의 흥행예측 등이다.

 

또 주가 관련 데이터를 대상으로 다양한 기술적 분석 변수를 생성해 정량적 분석으로 빠르고 쉽게 주가를 예측하고 투자 시뮬레이션 결과를 시각화한 시스템인 미래 주가지수 예측 및 상관관계 종목추출과 과거 5년간의 원-달러 환율 데이터를 바탕으로 환율에 유의미한 영향변수를 연구·도출, 일일 원-달러 환율 예측 모델을 구축해 환율 예측의 새로운 가능성을 제시하는 원-달러 환율예측, 티켓판매, 초청 뮤지션 정보, 재즈음악 동향데이터, 날씨·교통·연도별 와인 수입량 등을 분석해 자라섬 재즈 페스티벌의 미래 관객 수를 예측하고 성공요소를 도출하는 자라섬 재즈페스티벌 관람객 분석 및 예측 등이다.

 

이와 같이 다양한 프로젝트들이 시도되고 있는 가운데 신간서적의 흥행예측 프로젝트를 통해 창업을 시작한 박대건 씨를 만나 빅데이터 아카데미에서 교육을 받고 나서부터 현재까지의 스토리를 들어봤다.

 

빅데이터 아카데미 들어가는 것도 쉽지 않다

 

박대건 케이에스비퓨처 대표는 IT 업무 경력 보유자로서 빅데이터 아카데미 교육을 받고 창업을 했다. 빅데이터 아카데미 교육을 받은 사람들이 대부분 IT 업체에서 10년 정도 경력을 쌓은 사람들이었고 경쟁률은 6~71 정도 됐다고 말한 박 대표는, 창업 이전 알라딘과 예스24에서 IT 개발 업무를 담당했다.


웹사이트, 블로그, 모바일 등 인프라와 보안 분야 업무를 총괄하다가 2년 전 빅데이터 기술과 트렌드를 접하게 됐다. 창업진흥원 교육을 통해 빅데이터 기술을 접하게 됐고 그 이후 빅데이터 아카데미 기술전문가 과정 3기를 수료한 후 지난해에는 분석전문가 과정 5기에 입소하고 나서 파일럿 프로젝트로 향후 2주 후 가장 잘 팔릴 수 있는 도서 분석을 해서 우수 팀으로 선정되기에 이르렀다.

 

박 대표는 현재 빅데이터를 활용한 새로운 비즈모델을 만들고 있는데 도서 리뷰를 분석해서 도서를 추천하는 서비스를 개발하는 중이다. 데이터 수집은 예스24를 통해 정기적으로 하고 있으며 이런 자료를 바탕으로 분석 작업을 하고 있다. 현재 도서 리뷰 5만 건 정도를 수집해서 책 추천 알고리즘을 만들고 있는데 한 리뷰 당 최소한 5권 이상의 책을 추천할 수 있도록 개발하고 있다. 요즘은 하루에도 수백 건씩 도서 리뷰가 생성되고 있어서 소스가 부족하지는 않다. 새로운 비즈모델은 현재 테스트 중이다. 리뷰 분석 엔진은 개발이 됐는데 책 추천 알고리즘이 미진해서 피딩 작업을 계속 진행하는 중이다. 원래 데모 계획은 2월 초였지만 좀 늦춰졌다.

 

일차적으로는 B2B 형태로 사업을 할 계획으로 시범서비스를 준비하고 있는데 다음 단계로 회사 자체 서비스를 준비할 계획이다. 내부적으로 사용자 기반, 모바일 기반의 추천 서비스를 준비하고 있는데 모바일 인증을 받아서 리뷰를 허용해주는 방식으로 진행할 계획이다. 해외의 경우에는 도서의 내용을 분석해서 도서와 매칭을 추천해주는 파일럿 프로젝트를 진행하다가 이 사업을 애플에서 인수한 사례가 있지만 박 대표의 창업사례와 같이 빅데이터를 활용해서 도서의 리뷰 분석을 통한 도서추천서비스는 없었다.

 

빅데이터는 새로운 발상의 시작

 

박 대표는 빅데이터 아카데미를 통해 비즈모델에 대한 사고의 틀을 바꿨다고 말했다. 기존의 IT기반에서는 사고의 틀이 획일적이고 다각도로 바라볼 수 있는 시각이 부족했지만 빅데이터 아카데미를 통해 비즈모델에 대한 다른 시각, 다른 뷰를 볼 수 있게 됐다는 얘기다.

 

기존의 도서추천서비스는 소비자들이 주문한 내역을 기반으로 도서를 추천해주거나 소비자들이 구매한 도서에 점수를 매긴 별점을 기반으로 추천해주는 방법이었다. 그러나 빅데이터 아카데미 교육을 통해 비즈모델을 바라보는 시선이 바뀌었고 이에 따라 서비스 준비를 할 수 있게 됐다.

 

박 대표는 IT 업무 경력 외에도 개인정보심사원 등 활동을 같이 하고 있다. 이와 관련된 지난해 이슈는 카드사 사건이 발생하면서 터진 개인정보에 대한 문제였다. 개인정보는 법적, 제도적 문제인 한편 빅데이터는 기술에 대한 트렌드라는 게 박 대표의 설명이다. 박 대표의 비즈모델은 지난해 8월 일인창조기술개발과제로 선정됐는데 비정형 빅데이터를 분석해서 리뷰나 SNS 분석을 통해 재화를 추천해주는 서비스가 주된 내용이었다.

 

박 대표는 도서의 리뷰는 분석데이터로 활용하기에 다른 리뷰에 비해 내용 자체가 길고 사람들이 자기 생각을 많이 넣는다는 특징이 있으므로 커스터마이징할 때 오히려 수월하지 않을까 하는 생각에서 비즈모델을 정했다고 말했다. 도서 리뷰의 내용이 많아도 핵심어를 뽑아내서 반복횟수를 카운팅하는 방법을 통해 명사, 형용사외에 접속사, 전치사 등을 다 제거한 후 주요한 동사나 형용사를 기반으로 핵심어를 뽑아내는 작업을 한다.

 

박 대표는 이런 작업을 하면서 도서 리뷰가 각각의 사이트마다 각각의 다른 성향이 있다는 것을 이번에 알게 됐다고 말했다. 알라딘의 독자들과 예스24의 독자들의 관점이 달랐는데 이를 통해 도메인, 사이트에서 중요하게 생각하는 것이 무엇인지를 생각하게 됐다. 의류에 대한 도서를 예로 들어 설명한다면 의류의 어느 점에 대해 더 자주 언급하고 있구나하는 것을 생각하게 된다. 이런 방법으로 검색과 분석을 확장시켜 나가면 교차분석도 할 수 있게 된다. 박 대표는 도서추천서비스에서 더 나아가 도서를 읽고 리뷰를 쓴 사람에게서 많이 나오는 단어와 관련된 도서 외에도 상품을 추천해줄 수 있는 서비스를 구상 중이다.

 

비정형데이터에 대한 새로운 생각

 

기존의 IT 업계에서 비정형데이터는 그리 주목받지 못했다. 정형데이터는 정석으로 받아들여진 반면 비정형데이터는 오류의 가능성이 많다고 인식돼왔다. 그러나 박 대표는 빅데이터를 활용해 비정형데이터를 새로운 비즈모델 소스로 개발하고 있다.

 

박 대표는 빅데이터 아카데미 교육 내용은 기술과 분석으로 나눌 수 있는데 기술 분야에서는 수집에 대한 내용이 도움이 많이 된 것 같다고 말했다. 다른 빅데이터 분석과 달리 비정형데이터, 즉 텍스트 분석을 하는 것이기 때문이다. 박 대표는 빅데이터 아카데미에서 트위터 분석을 통해 텍스트의 긍정과 부정에 대한 분석을 하는 교육이 있었고 또 어떤 단어를 주로 쓰는지에 대한 워드 크라우딩 분석이 있었다고 말하면서 그런 교육을 통해 자체적으로 엔진을 개발하고 자체적인 분석기를 만들어낼 수 있었다고 설명했다.

 

박 대표는 교육 내용 중 아쉬운 점이나 보완이 필요한 점이 있다면 기술전문가 과정, 분석전문가 과정을 할 때에는 일 년 사이에 교육내용이 많이 바뀌었는데 사전 교육이 없이 바로 교육을 하다보니까 경력은 있지만 환경에 익숙하지 않은 사람들이 있었고 파일럿 프로젝트를 만들어서 워크숍 형태로 진행을 하는데 팀 구성을 즉흥적으로 했다고 말했다.

 

박 대표는 빅데이터 아카데미 수료 결과 40개 팀 중에서 우리 팀이 3위를 했다팀 구성원들과 호흡이 잘 맞았다고 본다고 말했다. 박 대표는 빅데이터 아카데미 수료 후, 자연어 처리와 형태소 분석 및 감정 분석 등의 엔진 개발을 해 본 경험이 있는 고민정 씨와 함께 창업을 해서 엔진을 추천하는 튜닝 알고리즘을 개발하는 중이라고 설명했다. 또 창업하면서 어려운 점이 있다면 기술 문제 보다는 인력 보강과 인건비였다고 덧붙였다. 다음은 빅데이터를 활용한 비정형데이터 분석이라는 새로운 시도를 하고 있는 박대건 케이에스비퓨처 대표와의 일문일답이다.


 Q. IT업계가 비정형데이터에 관심을 가지게 된 계기는 무엇인지요. 또 지난해 애플이 시도한 전자책 서비스는 기존의 데이터서비스와 어떤 점에서 차별화되어 있는지 설명해주세요

 

A. 제가 생각하는 것은 기술의 발전과 아날로그 감성의 만남으로 정의하고 싶습니다. 컴퓨터의 발전이 01로 나타내는 디지털기술의 발전으로 이어져 왔지만, 인간 본연의 사고와 실생활들은 01로 정의하지 못하는 게 많습니다.

 

특히 인간의 생각을 01로 나타내기에는 무리가 있고, 인간의 행동도 01로 구분하기 어려운 것이 많습니다. 그래서 IT 트렌드에 인문학적 마인드가 접목이 되고 아날로그적인 사고를 요구하고 있습니다. 하지만 IT기술이 발전되지 못했다면 한계가 있었을 것이지만 오픈소스 기반을 두고 있는 빅데이터 기술이 등장하면서 그 한계를 극복할 수 있게 됐습니다. 이를 토대로 과거에는 분석하지 못했던 비정형데이터 즉, 텍스트내용의 데이터(소셜데이터 등), 영상데이터, 이미지데이터, 음원데이터 등을 분석할 수 있게 된 것이라고 생각합니다.

 

그렇다고 해서 빅데이터 기술이 비정형데이터만 분석한다고 볼 수는 없고 01이 아닌 형식으로 분석하는 것은 아닙니다. 하지만 ‘01을 다른 각도로 바라볼 수 있도록 향상된 기능을 제공함으로써 데이터를 분석하는 사고의 틀을 깬 것이 아닌가라고 생각합니다지난해 애플에서 전자책 사업 강화를 위해 기술력만을 가지고 있는 도서관련 기업 북램프를 인수한다는 기사가 났습니다.


북램프의 주요서비스는 자연서 분석 기술을 기반으로 빅데이터를 분석해 사용자에게 읽을 만한 책을 알려주는 북 게놈 프로젝트업체입니다. 북램프 업체는 기술력만으로 1천만 달러 이상의 인수금액을 받게 되었습니다. 이 기술을 바탕으로 애플은 전자책을 읽고 있는 독자에게 다른 전자책을 추천해줄 수 있는 서비스를 준비할 수 있게 되었습니다. 이것은 기존에 사용자의 구매내역 분석이나, 사용자가 평점을 준 도서를 기반으로 평점분석을 해서 추천해주는 것과는 다른 사용자 경험을 제공할 수 있게 된 점입니다.

 

Q. 비정형데이터와 정형데이터의 비중은 각각 어느 정도 입니까?

 

A. 크기만으로 비교한다면, 정형데이터보다는 비정형데이터가 더 많다고 볼 수 있습니다. 하지만 서로의 중요도를 기준으로 한다면 어느 것이 더 많다고 말하기 어렵습니다. 그 이유는 활용분야가 다르기 때문입니다. 자사에서 준비 중인 서비스에서 비중을 나누자면 8020 정도로 나눌 수 있을 것 같습니다. 80이 비정형데이터인 도서감상리뷰가 될 것이고, 나머지 20이 정형데이터인 도서서지정보라고 말씀드릴 수 있습니다.

 

Q. 정확도를 높이기 위한 방법에 대해 설명해주세요

 

A. 비정형데이터의 정확도를 높이는 방법은 어느 하나로 단정 지을 수 없습니다. 특히 비정형데이터 중에서 텍스트 기반의 자연어를 분석한 결과의 정확도를 높이기는 더 쉽지 않습니다. 우선적으로는 사람의 힘을 빌려서 정확도를 높이려고 합니다. 다양한 분야의 경험을 가지고 있는 일반인들이 분석결과의 타당성을 수치화 시켜서 반영하고 이를 토대로 기계학습알고리즘을 반영해서 해당 비정형데이터의 정확도를 높이는 방법을 생각하고 있습니다. 처음부터 기계에 의존하기보다는 사람의 생각을 바탕으로 기계를 학습시키고 이를 바탕으로 자동으로 정확도를 향상시키는 형식으로 고민하고 있습니다.

 

Q. 활용도와 가능성에 대해 설명해주세요

 

A. 우선적으로 감성을 읽을 수 있다는 것입니다. 예를 들면 시원하다라는 의미는 컴퓨터 입장에서는차다라는 의미로 해석이 단정될 수 있지만, 사람의 입장에서는 그 분위기 상황에 따라서 뜨끈하다’, ‘몸이 풀린다등의 다양한 해석이 될 수 있습니다. 이렇게 비정형데이터를 가지고 활용하게 되면 전체적인 상황을 판단해서 무엇을 의미하는지 알 수 있고, 이를 통해서 어떤 생각을 가지고 있는지를 알 수 있다고 생각합니다. 또한, 비정형데이터 중에서 영상데이터를 분석하게 되면 영상 내에서 발생되는 행동유형을 분석해서 이후 행동을 예측해볼 수 있을 것입니다.

 

최근 해외에서는 사진 속에 있는 상황을 분석해서 요약해주는 기술을 만들고 있다고 합니다. 이미지데이터 또한 비정형데이터 중 하나이며, 기존에 시도하지 못했던 다양한 분석이 가능해지고 이 분석이 가능하게 된 것은 빅데이터 기술의 발전이 가져온 성과라고 생각합니다. 이후에는 빅데이터를 더 다양하게 활용할 수 있을 것으로 보여집니다. 하루에도 수억 단위의 메시지들이 인터넷상에 올라오는데 그것을 분석하게 되면, 향후 일어날 사회적 현상을 예측하고 대응할 수 있지 않을까 생각됩니다.

 

Q. 문제점과 해결방법에 대해 설명해주세요

 

A. 문제점은 쓰레기 데이터가 많다는 것입니다. 모든 비정형데이터가 모두 쓸모 있다고 이야기 할 수는 없습니다. 무엇이 비즈니스에 맞는 데이터인지를 면밀히 관찰하고, 혹시 수집되지 않는 데이터가 무엇인지를 알아서 추가하는 등의 다양한 방법을 통해서 이러한 문제점을 해결해야 할 것입니다.




HOT클릭 TOP7


배너






배너

사회

더보기
윤상현 "알리·테무서 판매되는 어린이제품 유해물질 범벅...정부의 적극 대처 시급"
윤상현 국민의힘 의원이 알리·테무 등 이커머스 플랫폼 상품에 대해 정부의 적극 대처를 촉구했다. 윤 의원은 10일 자신의 페이스북 게시글을 통해 "어제(9일) 서울시가 발표한 해외 온라인 플랫품 제품 안전성 검사 결과 중국의 온라인 쇼핑몰에서 판매하는 어린이 제품 71개 중에 41%인 29개가 ‘부적합’ 판정을 받았다"며 "우리 국민의 안전을 지키고 시장의 혼란을 잠재울 수 있도록 적극행정이 필요한 때"라고 지적했다. 이어 "중국계 플랫폼에서 해외직구로 판매하는 어린이 학용품과 슬라임 등 완구에서 가습기살균제 성분 등 유해물질이 다량 검출된 것이 확인됐다"며 "초저가 가격경쟁력을 내세운 알리익스프레스·테무 등 이커머스 플랫폼 상품이 공산품을 넘어 신선식품·어린이제품 등으로 공격적으로 사업영역을 확장하면서 국민들의 직접적인 피해로 이어지고 있다"고 우려했다. 윤 의원은 "유해물질 관련 상품의 안전성, 불량·파손·가품 등 피해 대처뿐 아니라 개인정보 침해 등의 문제도 잇따르고 있지만 관련 법제도 미비로 제재 방법이 마땅치 않은 실정"이라며 "중국 이커머스 플랫폼 업체들이 초저가 공세를 할 수 있는 이유는 국내 경쟁업체들에 부과되는 규제의 틀에서 벗어나 있는 이유