ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 주니어 데이터 엔지니어의 공부방법
    Data 2021. 1. 27. 23:06
    반응형

    이 글에서는 비전공자로 시작해 지난 3년 간, 이커머스 그리고 핀테크 도메인의 클라우드(AWS), 이커머스 온프레미스(Hadoop) 기반의 데이터 환경에서 주니어 데이터 엔지니어로 근무하며 각 도메인과 환경에서 공부 했던 부분들을 정리해보려고 합니다.

     

    신입 또는 다른 개발 직군에서 피벗을 고려하시는 분들이 공부방법을 많이 찾으시는 듯 한데, 도움이 되었으면 합니다.

     

    • 지향하는 데이터상품군을 파악하고 환경 만들기
    • 공부하는데 참고한 자료들

    지향하는 데이터상품군을 파악하고 환경 만들기

    이 장에서는 데이터 환경에 노출되고 있지 않다면, 어떤 데이터상품군을 지향하는지 파악하고 배워가는 정보가 지식으로 연결될 수 있는 환경(주로 프로젝트에 대한) 만들기를 다룹니다. 그렇기에 현재 '데이터 관련 업무'를 진행하신다면, 다음 장으로 넘어 가셔도 좋겠습니다.

     

    수학 또는 통계와 관련해서는, 아래의 '데이터 엔지니어' 정의에 크게 연관되지 않는다고 생각되어 포함하지 않았습니다 (그러한 역할을 한다면, '분석가'나 '머신러닝 엔지니어' 또는 '데이터 사이언티스트'와 같이 구분되어 사용할 수 있는 정의가 있다고 생각합니다).

     

    하지만, 기본적인 '통계적 사고'는 삶을 살아가는 데도 업무를 효율적으로 진행하는 데에도 필수적이라고 생각합니다.

     

    어떤 데이터상품을 지향하는지

    (개인적이 경험을 통한 정의에 기반하면) 데이터 엔지니어는 '데이터상품'을 만드는 소프트웨어 엔지니어입니다. 그렇기에 소프트웨어 엔지니어에 요구되는 기본적인 지식이 필요한 것 같습니다. 특징적인 데이터 상품군은 데이터/메타데이터, 데이터플랫폼, 데이터서비스가 존재하는데요.

     

    데이터상품은 데이터에 기반하기에 높은 품질의 데이터/메타데이터를 개발하고 운영하는 방법은 데이터 엔지니어가 기본적으로 갖추어야할 소양이라고 생각됩니다.

     

    두 번째인 데이터플랫폼은 온프레미스 또는 클라우드와 같은 지향하는 환경에 따라 배워야할 것의 범위가 많이 다른 듯합니다. 클라우드라면(클라우드 환경의 데이터 엔지니어로 일하는 것을 목표하고 있다면) AWS, Azure, Google Cloud  등의 데이터 도구를 사용하는 방법을 우선으로 익혀나가야 합니다(후에 이해하는 것도). 온프레미스라면 현재 온프레미스 환경에서 많이 쓰이고 자격요건으로 많이 요구되는 사항을 중심으로 익히면 좋겠습니다.

     

    세 번째인 데이터서비스는 (두 번째와 유사하게) 데이터 기반(Data-driven) 서비스의 종류가 다양하기에 한정적으로 기술하는 것은 피하고자 합니다. 그러한 상황에서 도움이 될 사항은 '어디에 역량을 집중할 것인가?'와 같이 scope을 명확하게 가져가는 부분입니다.

     

    (Business Models for the Data Economy와 같은 것을 참고하셔서 방향성을 고민해봐도 좋겠습니다)

     

    데이터 학습 환경 만들기

    먼저, 똑같은 일상을 살아가더라도 데이터 관련 내용에 지속적으로 노출될 수 있도록 여러 트리거를 만들어 두어야 합니다. 그 이후, 데이터 업무를 진행하지 않는 상황에서 데이터 환경에 노출되고 '내 것'으로 만들기 위해서, 저는 무엇보다도 관심있는 도메인의 개인 프로젝트를 진행하는 것을 추천드립니다. 

     

    일상의 주식, 부동산, 학교 등교 히스토리, 당근마켓 데이터, 반려동물 관련 데이터, 화장품 관련 후기, 헬스 관련 데이터, 현재하고 있는 데이터 관련성이 약한 분야의 데이터 등등 데이터는 모든 곳에 존재합니다. 자신이 관심있어하는 분야의 데이터를 1) 높은 품질의 데이터/메타데이터를 생산하고, 2) 그것을 기반으로 서비스를 만들고, 3) 그 활동을 위한 데이터플랫폼을 익혀가시면 좋을 것 같습니다.

     

    위와 같은 방식으로 저는 취업 포폴준비를 진행했습니다. 짧은 기간이었으나, 그 이전과 이후를 4년차를 바라보는 현재에 곱씹어봐도 "좋은 선택이었다"는 생각이 듭니다.

     

     

    공부하는데 참고한 자료들

    위와 같은 데이터상품에 대한 구분이 외부의 자료들을 나누는데에는 적용되기 어려운 것 같습니다. 그래서 이 장에서는 이 글(이 글의 책 5권은 아래에서 제외합니다)에서와 같이 데이터 전반적인 자료, 데이터 기술 specific한 자료, 그리고 소프트웨어 엔지니어링 전반에 관한 좋은 자료들을 정리해보겠습니다. 형식은 책, 논문, 블로그, SNS, 영상, 컨퍼런스 등을 포함됩니다 (prefix *는 주관적인 난이도).

     

    무엇보다도, 데이터에 대한 관심을 가지고 무언가를 만드는 활동과 병행하는 것을 매우매우 추천드립니다. 아래 적은 내용은 제가 직간접으로 경험했는데 그래도 괜찮았던 것 위주로 적었습니다:

     

    (패스트캠퍼스에서 오프라인 강의도 많이 들었는데 제외하였습니다 - 링크드인 참조)

     

    데이터 전반

    데이터 전반에 대한 사항은 먼저 데이터가 어떻게 쓰이고 있는지에 대한 흥미로운 글들을 읽어보시면 좋습니다. 아래에 있는 것들이 그러한데요:

     

    어느 정도 흥미가 붙으면, 다음과 같은 좀 더 자세하고 체계적인 내용들을 살펴볼 수 있겠습니다:

     

     

     

    데이터 기술 specific

    위에서 말씀드린 바와 같이 환경(또는 지향점)에 따라 우선적으로 원하는 바가 많이 다를 듯 한데요. 그렇기에 클라우드를 따로 전달드리려 합니다.

     

    먼저 클라우드와 관련한 것들은:

     

     

    이외의 데이터 관련 기술과 관련해서는 (아래 빨간색 링크 글에서 말씀드린 책 5권은 정말 좋습니다):

    외에 Uber, Google, LinkedIn, Facebook, Lyft, Palantir, Line, Naver, Kakao 등의 기술블로그와 Medium의 다양한 data 관련 글을 자주 봤던 것 같습니다.

     

     

    SE 전반

    특별히 좋았다고 생각되는 것들만 좀 추려서 적었습니다:

     

     

     

     

    그 외에 도움이 될까 해서 Udemy에서 듣는 강의리스트 첨부합니다:

    반응형
Kaden Sungbin Cho