dataengineer
-
빅데이터 거버넌스(Data Governance)의 정의 및 목적, 그리고 고려사항(및 도구)들Data 2020. 12. 19. 15:31
데이터 팀에서 데이터를 다루다보면, 데이터와 관련된 다양한 이해관계자들(데이터 분석가, 데이터 사이언티스트, 기획자, BI 개발자 등) 사이에서 기술적인 것 외에도 '데이터 접근 관리', '개인정보 데이터 관리', '데이터 품질' 등의 경영이나 문과적(?)인 사항들이 자주 이슈화되는 부분을 경험할 수 있습니다. 이러한 부분이 잘 관리되지 않았을 때, 많은 비용으로 발생하고 업무 시에 많은 시간을 탕진하게 하기도 합니다. 저 개인적으로도 데이터플랫폼팀의 '데이터 거버넌스 파트'의 일원으로 '데이터 분석팀', '추천팀', 'BI팀', 'DB개발팀'의 팀 단위의 이해관계자들 사이에서 (기존 데이터 이해관계자가 대부분 한 팀에 뭉쳐있던 구조와 달라) 팀 단위의 커뮤니케이션으로 인해 잦은 병목이 발생하는 상황을 ..
-
[Hands On] 아파치 레인저(Apache Ranger) 도커(Docker) 환경에서 하둡(Hadoop) 서비스(HDFS, Hive, Presto) 연동 테스트하기Data 2020. 12. 18. 22:47
| 이 글은 제가 작성한 원본(영어) 에 좀 더 현실적인 컨텍스트를 더해 작성하였습니다. 데이터 플랫폼이 클라우드 환경이라면 제공되는 기본적인 서비스와 추가할 서비스의 연동은 어느 정도 보장 되고, 아직 규모가 많이 크지 않은 환경에서는 그런 부분이 큰 우선순위로 여겨지지 않기 때문에 비교적 데이터 플랫폼 운영자 입장에서 크게 신경을 쓰는 부분이 아닌 듯 합니다. 그러나, 어느 정도 규모가 있는 온프레미스 데이터 플랫폼을 운영하다보면, 데이터 사용자가 필요한 서비스나 도구를 추가할 때에 자주 '권한관리' 부분이 병목이 됩니다. 기존 운영하던 Apache Sentry와 인하우스의 조합으로는 Presto, Spark 등 끊임없이 개선되고 추가되는 다양한 데이터 시스템을 빠르게 연동하고 데이터 플랫폼에 안정적..
-
주요 IT 기업의 모던 데이터 시스템Data 2020. 12. 12. 11:29
이번 글에서는 주요 IT기업의 데이터 시스템을 중점으로 데이터 엔지니어링이 무엇인지 알아보려고 합니다. 이 글은 한글로 된 데이터 엔지니어링 관련 자료가 많이 없는 것으로 보여 이해를 돕기 위해 고려사이버대학 소프트웨어공학과 졸업 논문으로 쓰여진 원문(영어)을 바탕으로 작성하였습니다. 초록 최근 IT 기업에서 발생하는 다양한 요구사항을 충족시키기 위해서 많은 데이터 도구들이 개발되어 왔습니다. 각 도구들의 탄생 배경은 다양하고 달라보이나 추상화와 구조화를 통해 다양한 도구들을 일관된 프레임으로 비교하고 분석할 수 있습니다. 아래에서는 기존에 데이터 파이프라인[3]에 자주 사용되던 개념인 ETL을 확장하여 6가지 단계(Collect, Move, Store, Process, Use, Orchestrate)로..
-
[Hands-On] 도커 환경의 Airflow(에어플로우) 스케쥴러 고가용성(High Availability) 알아보기Data 2020. 12. 3. 23:44
| 이 글은 제가 작성한 원문(영어)을 번역한 글입니다. 오늘은 데이터 엔지니어링에서 Workflow Management 툴로 사용되는 에어플로우(Apache Airflow)에 대해 전달 드리려고 합니다. 에어플로우는 Apache Nifi, Streamsets 등과 비슷한 기능을 가지며, 데이터 엔지니어링에서 의존성을 가지는 다양한 작업의 실행을 DAG이라는 개념으로 묶어 관리의 관리를 도와주는 기능합니다. Streamsets은 프로덕션 레벨을 위해서는 비용을 지불하여야하고, Apache Nifi는 GUI로 관리가 가능한 반면 코드 제어하는 부분에 어려움이 있기 때문에, Python 기반의 Airflow는 데이터 파이프라인에서 작업 관리를 위해 많이 사용되곤 합니다. 작업을 실행하는 워커(Worker)나..
-
식품연구원에서 개발자로 전직(직무전환)한 이야기 (feat. 8개월)Career 2020. 11. 25. 17:46
17년 7월, 저는 식품연구원으로 재직하던 회사를 그만두고 18년 3월 비전공자 개발자(데이터 엔지니어 신입)로 취업에 성공하였습니다. 직무전환에 대한 글은 많지만 식품연구원에서 개발자로의 전직에 관한 글은 드물고, 직무전환을 진행하는 내내 세세한 심리에 관해 적은 글은 없는 것 같아서 이번 글에서는 그러한 부분을 적어보려고 합니다. 또, 추가적으로 각 기간마다 어떤 준비를 했는지도 전달드려보겠습니다. 식품연구원이었던 때 당시 저는 경희대학교 조리서비스경영학과와 식품생명공학을 복수전공하고 쟈뎅이라는 조그마한(?) 식품 회사에서 커피연구원으로 일하고 있었습니다. 회사 일을 하는데에 있어서 초년이었기에 매우 열정적으로 일하고(주관적인 판단입니다...) 주말에는 커피와 관련한 영문 논문도 찾아보고 읽으며 여러..
-
[Reading List] 데이터 엔지니어링 관련 논문 (Articles on tools for the Data Engineering)Learning Resources 2020. 11. 23. 18:47
도구 Albis Albis: High-Performance File Format for Big Data Systems Apache Calcite Apache Calcite: A Foundational Framework for Optimized Query Processing Over Heterogeneous Data Sources Apache Hadoop Distributed File System The Hadoop Distributed File System Apache Hadoop Mapreduce MapReduce: Simplified Data Processing on Large Clusters Parallel MapReduce: Maximizing Cloud ResourceUtilization and..
-
통합적인 관점에 기반한 온프레미스 데이터 플랫폼 구조 비교분석Data 2020. 11. 23. 18:41
이 글의 원문은 11번가 데이터 플랫폼 팀에서 데이터 엔지니어로 근무(20190923 ~ 20201115)하며 사내 블로그에 작성한 '통합적인 관점에 기반한 11번가 온프레미스 데이터 플랫폼 구조 비교분석'입니다. 온프레미스 데이터 플랫폼을 운영하시는 분들에게 도움이 되기 위해 11번가와 연관된 정보를 제외하고 게시하였습니다. 들어가기 전에 '온프레미스' 데이터 플랫폼은 다양한 인하우스 애플리케이션과 분사 등 독특한 역사를 가지고 있습니다. 클라우드 데이터 플랫폼 사용 시에는 많은 공유 세션과 다수의 클라우드 데이터 플랫폼 디자인 패턴 등을 통해 비교적 쉽게 통합적인 관점을 구상해 낼 수 있는 반면, 현시점에서 그러한 역사가 반영된 데이터 플랫폼에 대한 통합적이고 일관된 관점이 부재합니다. 이러한 '통합..
-
온프레미스 데이터 플랫폼 팀의 데이터 엔지니어가 하는 일(feat. 11번가 데이터 플랫폼 2020년 회고)Data 2020. 11. 23. 18:27
잇다에서 데이터 엔지니어 멘토로 활동하면서 직무와 관련해 자주 설명하게 되는 부분은, 데이터 엔지니어가 정확히 어떤 일을 하는지에 관한 부분이었습니다. 해당 직무가 생긴지 오래되지 않았고, 아직도 역할에 대한 요구사항이 발전하고 있는 단계이기에 그러한 설명이 필요할 때마다 찾으려고 해도 잘 정리된 한글 문서를 찾기가 쉽지 않았습니다. 그렇기에 이 번 글에서는, 2020년 한 해(정확히는, 2019/09/23 ~ 2020/11/15) 동안 11번가에서 데이터 플랫폼 데이터 엔지니어로 근무하며 작업한 내용을 구조화하여 데이터 엔지니어가 어떠한 일을 하는지 전달드리려고 합니다. 근본적으로 데이터 엔지니어란? 에서 공유드린 관점에 기반해 좀 더 실무적인 사항들을 기술하였습니다. 먼저, 11번가 데이터 플랫폼 팀..