-
기업 내의 데이터 환경은 어떤 모습인가: 데이터 생성과 소비Data 2021. 1. 3. 09:01반응형
이번 글에서는, B2B 또는 B2C와 같이 외부고객과의 접촉은 소프트웨어 전반의 서비스와 비슷한 형태를 가지기에(데이터 판매와 같은 경우 빼고) 제외하고, 한 기업 내에서 어떤 형태로 데이터가 생성되고, 소비 및 이용되는지 알아보겠습니다.
관련글:
- 데이터 엔지니어란?
- '데이터 엔지니어'라는 직무는 어떻게 탄생되었나: 요구사항과 도구들
- 데이터 엔지니어의 업무범위(하는 일)
- 데이터 엔지니어 역량 (feat. 구인구직사이트 자격요건)
생산(Producers)과 소비(Consumers)의 측면
한 기업 내에서 데이터는 대부분 '생성 -> 수집 -> 저장 -> 가공 -> 사용'되는 일방향 패턴을 보입니다(일부 사용에서 생성한 데이터가 다시 저장될 때가 있기도 하나).
그렇기에 이러한 형태를 액체를 한곳에서 다른 곳으로 옮겨주는 '파이프'와 닮았다고해서, 데이터 파이프라인이라는 표현이 많이 쓰이기도 합니다. 또한, 한방향으로만 보내지기에 데이터 처리 및 Workflow Management 도구에서는 DAG이라는 개념을 자주 마주할 수 있습니다.
설명드릴 데이터 파이프라인의 앞뒷단의 생성과 소비의 측면은 크게 2가지 차원으로 구성됩니다: 1) 생성과 소비의 형태가 어떤 것들이 있는지, 각 부분에서 2) 데이터 생성자(소유자)와 데이터 소비자(사용자)는 주로 누구인지 알아보겠습니다.
생성과 소비의 형태들
데이터 환경이 고도화 되면서 지속적으로 생성과 소비의 형태가 다양화 되고 있습니다 [1].
- 생성: 파일(웹 서버의 로그 파일, 엑셀 파일 등), 스트리밍(Clickstream, 서비스, IoT 사물 등), 이메일, 데이터베이스(또는 데이터베이스의 CDC 등), raw 데이터를 가공하여 재생성
- 소비: 쿼리 도구 및 Notebook(Jupyter, Zeppelin 등)을 통한 분석, 대쉬보드 생성, A/B Testing, ML 서비스 등의 형태로 소비됩니다. 또한, 최종적인 형태를 만들어 내기 위해 소비자가 직접(Self-Service 형태로) 메타데이터 탐색, 데이터 품질, Workflow Management(Apache Airflow, Nifi 등) Feature Store 등과 같이 최종 형태의 기반이 되는 서비스에 접근해 소비할 수 있어야 합니다 [2].
728x90생성자(소유자)와 소비자(사용자)는 누구인가?
데이터 소비자는 누구인가는 비교적 명확하지만, '실제 데이터 생성자가 누구인가'의 부분은 모호할 수 있습니다. 유저가 서비스를 사용할 때 바로 생성되는 Clickstream과 달리 대부분의 데이터는 센서, 서비스, 시스템과 같은 곳에서 생성되기 때문입니다.
그렇기에 이번 장에서는 생성 측면과 관련해서, 한 기업 내에서 데이터 엔지니어 업무를 진행할 때 데이터 사용을 위해 '허락을 득'할 필요가 있는 데이터 소유자와 다양한 요구사항을 가진 소비자를 파악해보겠습니다 [3].
데이터 소유자
보통 기업 내의 데이터 팀(또는 데이터 플랫폼 팀)은 독립된 하나의 조직으로 존재합니다. 그렇기에 서비스를 생성(또는 IoT 기기를 관리하는)하는 데이터 소유권을 가진 팀에 의존하게 됩니다.
예로, 웹 서비스 기업의 경우 Clickstream 수집을 위해 Front를 담당하는 프론트 개발자에게 Tracking Code를 심어줄 것을 요청하고 운영 DB 데이터를 가져오기 위해 DB개발팀에 접근을 요청하기도 합니다.
데이터 소비자
데이터의 주요 소비자이자 데이터 엔지니어 직무에서 가장 깊게 협업하는 직군들은 '데이터분석가'와 '데이터사이언티스트', BI개발자 등이 있습니다.
각 직군과 협업하는 형태는 직군과 연결되기 보다는 최종적으로 어떤 데이터 상품을 만들고자 하는가에 크게 영향을 받습니다.
하지만 기본적으로 효율적이고 편리하고 뛰어난 품질의 데이터와 메타데이터가 그 기반에 존재하게 됩니다.
Reference
[1] Rebuilding Reliable Data Pipelines Through Moderns Tools
[2] The Self-Service Data Roadmap반응형'Data' 카테고리의 다른 글
HDFS란? (하둡분산파일시스템) (0) 2021.01.16 하둡이란? (Apache Hadoop) (1) 2021.01.15 데이터 엔지니어 역량 (feat. 구인구직사이트 자격요건) (0) 2021.01.06 데이터 엔지니어의 업무범위(하는 일) (0) 2021.01.06 '데이터 엔지니어'라는 직무는 어떻게 탄생되었나: 요구사항과 도구들 (0) 2021.01.03 데이터 엔지니어란? (0) 2021.01.02 (FASTCAMPUS) 패스트캠퍼스 온라인 'THE RED: 데이터사이언티스트 하용호' 후기 - 강의내용요약 #3 (0) 2020.12.24 'Cloudera Sessions Korea 2020'으로 보는 데이터 플랫폼의 변화 방향성 (0) 2020.12.23