ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 'Cloudera Sessions Korea 2020'으로 보는 데이터 플랫폼의 변화 방향성
    Data 2020. 12. 23. 17:53
    반응형

    안녕하세요, 이번 글은 클라우데라 세션 코리아 2020에 참가한 후, 그 내용을 정리하여 공유 드리려 합니다.

     

    '데이터 폭풍'이라는 언급을 하며, 2025년까지 지속적인 데이터 사이즈의 성장과 코로나 환경에서도 우수한 클라우데라의 매출 지표로 환영사를 시작하였는데요. Dell과 Redhat이 협력사로 참가하고 AWS, Azure가 자주 언급되는만큼 클라우데라가 온프레미스와 Cloud, 그리고 Hybrid 시장에서 중심적인 위치를 차지하기 위해 동분서주하고 있다는 느낌이 드는 것 같습니다.

     

    먼저, 클라우데라가 이번 년도에 기획한 내용을 바탕으로 데이터 플랫폼 시장의 방향성을 정리해보고, 세션에서 소개된 신규 구현 내용을 하나씩 검토해 보며 짤막한 개인적인 생각을 전달 드리겠습니다.

     

     

    The Perfect Data Storm

    | An unusual combination of events or things that produce an unusually powerful result

     

    데이터 폭풍은 급속도로 계속 성장해가는 데이터 사이즈와 복잡해져가는 데이터의 구성과 환경, 그리고 그러한 데이터를 활용한 무궁무진한 기회의 창출을 나타내는 것 같습니다.

     

    본문에서 2025년까지, 연평균 61% 데이터 사이즈가 성장해서 ~ 170 ZB의 데이터에 이를 것이라는 관측과 함께 원시, 거래, 분석, 예측 등으로 그 목적이 특징적으로 구분되는 다양한 데이터 그룹이 생성되고 있다고 말하고 있습니다. 

     

    많은 산업에서 비즈니스의 성장, 연결, 보호라는 목적을 가지고 데이터 기반의 기업으로 변모하고 있고, 역시 많은 Cloud, Data Platform Provider들이 시장에서 활동하고 있습니다. 참여자와 제공자 양측의 특징은 아래와 같습니다:

     

    참여자 제공자
    - 일부 산업(공공(4/10), 은행(8/10))을 제외한 적극적인 디지털화
    - Data + 전체 Life Cycle + Security & Governance를 관리하는데 어려움을 겪음
    - Hybrid(Onprem + Cloud)화가 주축이 될 것으로 예상 (많은 Cloud로 이전했던 기업이 일부 Onprem으로 회귀하는 현상이 관찰됨)
    - 원격 근무자의 증가도 데이터양 증가에 기여하고 있음
    - 데이터 환경의 이해관계자가 많아지고 요구사항은 많은데, 데이터 플랫폼의 성숙도가 그 속도를 따라가지 못하여 병목이 발생하고 있음
    - 엄청나게 큰 대규모의 기업에서도 Data Pipeline(Collect, Enrich, Report, Serve, Predict)의 단계에서 Security, Governance, Lineage, Management, Automation라는 부분에서 많은 어려움을 겪고 있음
    주요 제공자는 4가지 타입이 존재
    - Cloud: AWS, MSFT
    - Semi-Native Cloud: AWS
    - Integrated Data LifeCycle: CLDR
    - Inter-Cloud: ORCL

    이러한 환경에서 클라우데라는 Any Cloud와 Onprem(Dell과 Redhat과의 협력)을 통해 커져가는 Hybrid에 대한 시장에서 Integration 역할을 중심으로 가져가려는 듯 합니다. 

     

    크게 강조된 부분으로는,

     

    • Any Cloud(AWS, Azure 등)
    • Data LifeCycle
    • Secure & Govern
    • Open(Open Source, Open API, Open Ecosystem) 

     

    4가지로 Cloud와 하드웨어의 넘볼 수 없는 강자들 사이에서, Data LifeCycle, Governance 등의 Integration에 강점을 지켜나가려하는 것 같습니다.  그렇기에, 하드웨어와 Cloud 변화에 빠르게 대응하며, 또한 빠르게 발전하는 고객사의 데이터 플랫폼 환경에도 많은 귀를 기울이는 것으로 생각됩니다.

     

    728x90

    What's New

    전반적인 방향성은 위에서 전달드린 것과 같이 Data LifeCycle에 있어서, 고객의 요구사항이 있는 부분에 대한 영역을 넓혀가는 동시에 단순하고, 통합된 형태로 제공하기 위해 끊임없이 Integration하는 것에 있는 것으로 보입니다:

     

    Cloudera Full Data LifeCycle

    • 풀 데이터 라이프사이클 지향
    • Nifi를 통한 Data Pipeline 관리 (Kafka Schema Registry 등을 통해 Streaming Metadata도 편입시켜감)
    • Ranger + Atlas를 통한 권한 관리 강화
    • HDFS, Hive, Ranger, Atlas 정보를 Cross-Cluster로 한 곳에서 관리할 수 있는 통합 툴(Cloudera Manager) 제공
    • 통합된 Cloud Resource 관리 도구 제공
    • Dell과 협력을 통해 S3/HDFS 대상 Federation과 같은 기능 제공
    • Storage Auto Tiering (Hot, Warm Cold)
    • Apache Ozone

    개인적으로, 기대감을 가지자면

     

    • Data LifeCycle이라는 부분이 좀 더 데이터 관점에서도 설명이 된다면 좋을 것 같습니다. 단순히 Auto Tiering과 Ranger 2.0.0을 붙여 기능이 구현되었다는 사실이 아니라, 기존의 데이터 오너와 데이터 사용자의 데이터 접근 요청 프로세스가 어떻게 간소화 되고, Auto Tiering이 개인정보컬럼에 따라 어떻게 적용되고 책정되었는지 충분한 사례 중심의 개선 케이스가 전달된다면 더욱 설득력 있을 것 같습니다(좀 더 '데이터 엔지니어'적인 관점)
    • Apache Hudi, Apache Iceberg와 같이 Lambda 아키텍쳐에서 Kappa 아키텍쳐로 전환에 대한 니즈가 있는 바(데이터 사이즈 적인 측면에서장점도) 구현에 대한 기대가 되는 듯 합니다
    • 점점 고도화 되고 복잡해 질수록 Data Quality에 대한 부분이 많이 이슈화 되는 듯 합니다. 해당 사항에 대한 니즈는 분석, ML, BI 등 비지니스와 밀접한 관계가 있는 팀에서 더욱 강하므로, 도입에 강한 드라이브가 될 수 있는 부분일 것 같습니다
    • 마지막으로, MLOps와 관련된 부분이 어떻게 되는지 궁금합니다

    이 될 것 같네요. 

     

    앞으로도 데이터 환경의 멋진 혁신을 기대하겠습니다.

     

     

     

    반응형
Kaden Sungbin Cho