ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • "데이터 경제를 위한 비지니스 모델"을 읽고 (feat. 한국 데이터 기업)
    Data 2021. 2. 2. 07:36
    반응형

    그것이 빅데이터든, 데이터사이언스 또는 단순히 분석이든 모던 비지니스는 데이터를 금광으로 바라봅니다. 때로는 단순히 하고 있는 일을 더 잘 이해하기 위해서, 때로는 인사이트를 얻기 위해서 데이터를 모으기도 하는데요. 무엇이 되었든 데이터는 비지니스를 개선하는데 특정한 가치를 지니고 있습니다. 

     

    데이터를 이익이 나는 것으로 변모시키는 방법은 무수히 많으나, 이 글에서는 아래와 같은 구조로 전달하려고 합니다:

     

    • Collect / Supply
    • Store / Host
    • Filter / Refine
    • Enhance / Enrich
    • Simplify Access
    • Analyze
    • Obscure
    • Consult / Advise

    국내 데이터산업 세부시장규모 - Image from [3]

     


    Collect / Supply

    데이터를 수집하여 데이터셋을 만들고 그것을 판매하는 방식입니다. 특정 데이터를 수집하는 것은 매우 수고스럽고 어려운 일이기에, 많은 사람들이 돈을 지불할 용의가 있습니다.

     

    국내기업으로는 워크맨에도 나왔던 "셀렉트스타" 또는 "Flitto" 기업이 바로 떠오르는데요. 

     

    사실 종류의 기업은 새로운 비지니스라기 보다는 컴퓨터화된 데이터베이스가 탄생하기 이전에도 존재하였습니다. 예를 들어, 잡지와 같은 경우도 본질적으로 그러한 데이터 형태의 하나입니다. 그 부분에서 업의 본질에 대해 알 수 있습니다. 그것은 바로 사람들은 자신이 하기 싫은 또는 할 수 없는 일에 대해 돈을 지불하고, 수집된 데이터를 구매해 자신이 집중할 수 있는 일에 더 시간을 쓸 수 있습니다. 

     

     

    Store / Host

    Store / Host는 Collect / Supply를 조금 선회한 형태입니다.

     

    사람들은 수집된 데이터를 저장할 곳이 필요합니다. 전통적으로는 직접 운영하는 시스템이나 self-managed 클라우드 서비스를 사용하였습니다. 데이터가 너무 크거나 클라이언트에서 저장하기가 어려운 경우 매우 유용합니다. 

     

    예로, 개발자들은 Loggly에 애플리케이션의 로그를 보내고, Loggly는 수집된 로그를 저장하고 추후에 다양한 형태로 제공합니다. 또한, Loggly 상에서 다양한 알람을 설정할 수 있습니다. 

     

    소셜미디어 아카이빙 서비스인 Gnip은 고객이 트위터, 페이스북, 또는 다른 소스로부터 저장된 히스토리컬 데이터를 요청할 수 있도록 합니다. 

     

    Hosting은 단순히 데이터를 저장하고 접근을 제공하는 것을 넘어서 분석서비스와 같은 것을 제공하는 것을 의미합니다. TempoDB, BigML, Google Analytics(여러 구분을 포함) 등이 이에 해당되겠습니다. 

     

     

    Filter / Refine

    "Bad data"는 여러 형태로 나타납니다. 한 가지 잦은 형태는 잘못 구성되고, 빈값이 존재하고, 중복이 존재하고, 정확하지 않은 데이터입니다. 특정 사람들은 raw데이터를 clean 또는 tidy 데이터로 바꿔주는 서비스를 이용합니다. 

     

    Collect / Supply와 유사하게 이 일의 가치는 사람들이 자신이 할 수 있는 일에 집중할 수 있도록 데이터 클린징에 필요한 technical grunt work를 처리해주는 것입니다. 

     

    그러한 클린징에는 Normalization도 포함됩니다. GE와 General Electric이라는 데이터가 존재한다면, 그것이 같은 형태로 처리되어야 합니다. 

     

    데이터를 어떤 기준으로 필터링하고 정제할지는 매우 복잡한 문제이기에, 1) 도메인 문제를 이해하고, 2) 클라이언트를 잘 알고 있어야(어떻게 데이터를 사용할 계획인지 등) 합니다. 

     

    Enhance / Enrich

    Filter/Refine과 유사하게 Enhance/Enrich 부분의 목적은 사람들이 스스로 데이터 전처리하는 시간을 아낄 수 있도록 하는 것입니다. 그러나 (filter과 달리)데이터를 빼거나 노말라이즈하는 것이 아니라 추가하는 부분에 중점을 둡니다. 2가지 데이터를 조인하여 새로운 유니크한 가치를 만들어낼 수도 있고 하나의 데이터셋에서 (컴퓨팅 인텐시브한) 결과물을 얻어낼 수도 있습니다. 

     

    예로, 구글맵과 같은 경우 geographic 데이터에 끊임없이 새로운 데이터를 추가해나가고 있으며 그것이 서비스 형태로 (API)제공되고 있습니다. 

     

    Public 도메인에도 좋은 예가 많은데, NTSB Airline 온타임 데이터셋은 모든 국내선 데이터와 지역 출발 및 도착 시간을 제공합니다. 

     

     

    Simplify Access

    Collect/Supply의 확장으로 API 또는 기기가 읽을 수 있는 형태로 데이터를 제공하는 것 역시도 서비스의 한 가지가 될 수 있습니다. 특정 주제에 특화된 검색엔진 형태의 PsycINFO(심리학) 또는 LexisNexis(법률) 등은 아카이브와 동시에 원하는 데이터에 쉽게 접근할 수 있도록 하는 데에 있습니다. 

     

    Analyze

    미디어를 통해 분석은 Collect/Supply와 같이 연관된 서비스 보다는 더 잘 알려져 있습니다. 빅데이터와 같은 용어는 "전통적인" BI와는 조금 다르기는 하나, 역시 오랬동안 존재해왔던 형태의 서비스입니다. 사실 BI라는 명칭이 생성된 것은 1958년으로 오래된 일이지만, 실제로 사용되는 시기는 1990년에 이르러서입니다 [4].

     

    아래 3가지 형태가 존재합니다:

     

    • External: 다른 사람의 데이터를 분석할 수 있도록 서비스를 제공함
    • Internal: 직접 소유한 데이터를 분석함
    • In-between: 특정 데이터를 분석하고 결과물을 판매함

     

     

    전반적인 방향성은 데이터셋에 존재하는 인사이트를 얻고 그것을 통해 이익을 창출할 수 있도록 하는 데에 있습니다. 

     

    External 분석은 제 3삼자에게 분석 서비스를 제공하는 것을 포함합니다. 단순히 데이터를 던져주고 이익을 창출하라고 요청하는 것도 그러한 형태지만, 대부분은 특정한 질문들과 함께 시작하게 됩니다: "어떻게 서비스 특정 지표를 증진시킬지", "어떻게 새로운 시장을 식별할지" 등. ad-hoc 분석이 많은 부분을 차지하지만, 때때로는 이상감지나 audits과 같은 좀 더 실질적인 목표도 다루게 됩니다.

     

    이러한 서비스는 비지니스에서 데이터와 연관된 의문을 가지고 있지만 직접 데이터 분석 팀을 운영할 여력이 없는 기업에게 유용합니다. 

     

    Internal 분석에서는, 당신의 이익 창출기회는 더 똑똑하고 정보에 기반한 비지니스 의사결정을 돕는 데에 있습니다. 주요한 예시로는 비지니스 모델 자체가 데이터에 기반한 기업들입니다 (트레이딩 기업 등). 또 다른 사례로는 마케팅 효과나 추천 엔진을 만들기 위해 고객 데이터를 분석하는 것이 있습니다. 대부분의 케이스에서, 분석은 보통은 이익에 직결되지는 않습니다. 

     

    In-between 케이스에는 직접 데이터를 분석하고 그 결과물을 파는 것에 해당됩니다. 예로, 직접 설문조사를 진행하여 모은 데이터를 정제하여 파는 행위가 해당됩니다. 3가지 분석 형태 중 가장 어려운 방식으로 구매자가 원하는 부분, 그러나 구매자가 아직 잘 모르는 부분, 그리고 구매자가 충분히 돈을 지불할 용의가 있는 부분을 모두 알고 있어야 합니다. 또한, 판매 데이터를 구매자가 되팔 수 있는 위험도 존재하여서 판매를 일정 형태로 조정하여 최대한 되파는 행위를 막을 수 있어야 합니다. 

     

    이러한 위험으로 인해서, 이런 방식은 기존에 운영하던 비지니스가 있고 데이터가 그 비지니스의 부산물로 나오는 경우에 유용합니다. 

     

    3가지 방식 모두에게 해당되는 부분은 분석은 매우 넓고 아직 끝을 모르는 분야하는 것입니다. 

     

    Obscure

    이제까지는 데이터를 더하는 방향성에 대한 부분만 살펴보았습니다. 데이터를 노출되지 않도록 잘 보호하는 분야에서도 비지니스가 존재합니다. 데이터를 수집하는 모든 기업에서는 그러한 데이터를 private하게 보존하는 것을 목표로하는 사람들이 언제나 존재합니다.

     

    기업들은 그들의 데이터를 보호하여 다른 사람이 그러한 데이터를 통해 이득을 보거나 유사한 부산물을 생성하지 못하도록 합니다. 개인들은, 기업들이 얼마나 그들에 대해 데이터를 수집하는지 인식하고 나면 더욱 개인정보를 보호하고 싶어집니다. 이러한 부분에서 데이터를 숨기거나 데이터 수집을 어렵게 만드는 도구를 통해 이익을 창출할 수 있습니다.

     

    브라우저 핑거프린팅에서도 다루었던 DoNotTrackMe나 Ghostery와 같은 ad-blocking 플러그인은 무료지만, 이러한 형태의 서비스가 유료로 제공되기도 합니다. 

     

    구글을 예시로 보아도, End 유저의 쿼리가 다수의 intermediaries를 지나 search box에 도달합니다. ISP나 다른 네트워크 미들맨들은 그러므로 search queries의 raw 데이터를 수집할 수 있습니다. 2010년 5월 구글은 분리된 SSL-encrypted 버젼의 search page를 출시했고, 이후 메인 구글 페이지에 SSL을 적용하였습니다. 그것을 통해 구글은 이러한 쿼리 데이터가 secondary market으로 흘러들어가는 것을 막을 수 있었습니다. 

     

    다른 예로, BrightTag는 웹사이트 오너가 파트너나 애드 네트워크에 의해 수집되는 데이터를 최소화할 수 있도록 돕습니다. BrightTag의 "smart tag"는 당신이 원하는 모든 정보를 수집하는 동시에, 써드파티에는 오직 특정 정보만 넘길 수 있도록 합니다. 

     

    Consult / Advise

    마지막 전략인 Consult/Advise는 가장 끝이 없는 분야입니다. 컨설팅은 데이터에 국한된 분야는 아니나, 데이터와 함께 더욱 의미있는 서비스를 제공할 수 있습니다. 

     

    컨설턴트는 그들의 경험과 전문성을 공유하는 댓가로 돈을 벌어들입니다. 데이터 컨설팅 운영에 있어서 한 가지 주요한 핵심요소는 클라이언트 산업에 대한 도메인 지식입니다. 

     

    비디오 게임 회사인 Valve는 2012년 온라인 게임 상의 가상 경제를 만드는 것을 돕기 위해 경제학자를 고용하였습니다. 이처럼 특정 전문성에 대한 수요가 존재하고 그 사람이 어느 정도 도메인 지식을 가지고 있다면, 그 전문성을 기반으로 다양한 산업군에 진입할 수 있습니다.

     

     

     

     

     

    Reference

    [1] Business Model for Data Economy

    [2] 한국데이터거래소

    [3] 2020 데이터산업현황조사

    [4] A Brief History of Decision Support System

    반응형
Kaden Sungbin Cho