-
(FASTCAMPUS) 패스트캠퍼스 온라인 'THE RED: 데이터사이언티스트 하용호' 후기 - 강의내용요약 #1Data 2020. 12. 19. 16:30반응형
이번 글에서는 패스트캠퍼스의 온라인 강의 'THE RED: 데이터사이언티스트 하용호'의 강의내용을 요약한 것과 개인적인 후기를 전달 드리려고 합니다.
위 강의는 Tmax, KT, SKT에서 데이터 관련 직무로 일하시고 데이터 관련 회사 창업 후 Kakao에 성공적으로 매각하신 하용호 님이 데이터사이언티스트라는 부분에 중점적으로 진행하신 강의입니다. 총 강의시간이 6시간이 조금 넘는데 20만원 가까이 되는 가격에 고민이 있으신 분이 있을 것 같아서, 제 주관을 더하여 강의내용을 상세히 요약하고 제 경험을 더해 후기를 작성하겠습니다.
결론적으로 말씀드리면, 짧은 강의시간이 오히려 컴팩트 해서 좋았으며, 데이터사이언티스트 뿐만 아니라 저와 같이 데이터 엔지니어로 일하는 분들을 포함한 데이터 관련 직종에 일하는 모든 분들께 도움이 되는 강의라고 느꼈습니다.
강의내용요약
강의는 크게 3가지 부분으로 나눠집니다.
- 10년이 넘게 지난 현재의 데이터 업계에서 데이터사이언티스트가 하는 일 (이번글)
- 데이터 팀을 일구기 위해 가장 먼저해야할 데이터 수집하기, 그리고 팀을 단계별로 발전시켜가기 (#2)
- 개인의 데이터사이언티스트로써 문제를 찾고 해결하는 법(분석), 비주얼라이제이션과 커뮤니케이션 방법 (#3)
위 3가지를 하나씩 살펴보겠습니다.
10년이 넘게 지난 현재의 데이터 업계에서 데이터사이언티스트가 하는 일
가장 첫 부분에서는 강사님 경력의 시작과 국내 데이터 업계가 시작한 시점이 비슷하여, 데이터 업계의 흐름에 강사님의 경험을 더해 변천사를 설명해주시고, 그래서 현재는 어떠한 시점에 놓여있는지 말해주고 있습니다. 강사님 경력의 시작이 분산파일시스템을 개발하는 것과 같은(현재의 화면 상에서 보는 모습과 상반된) 커리어여서 흥미를 가지고 시작할 수 있었는데요. 기존에 책으로 정리된 외국의 사례를 접했던 것보다 실제 제가 겪는 환경(한국의 데이터 업계)의 역사를 전달받는 느낌에 더욱 재밌게 들었던 것 같습니다.
그리고 두 번째의 '데이터사이언티스트가(DS) 하는 일(해야할 일)' 부분에서는 DS가 DS로 활동할 수 있는 환경(기업구조)에 대한 설명과 그러한 환경에서의 역할을 설명해주고 있습니다. 첫 번째 부분에서 현재 시점이 '데이터 대 그로스 시대'라고 진단하셨는데, 그러한 환경에서(가정하는 듯한 느낌도 있습니다) 어떻게 일을 진행하고 어떤 일들을 해야하는지 전달해주고 있습니다.
큰 관점에서 보자면, 아래 2010 ~ 2020년의 시기는 글 '데이터 엔지니어'라는 직무는 어떻게 탄생되었나의 20년이 넘는 기간 중에 Hadoop, Spark, Kafka가 탄생한 시기 ~ 온프레미스, 클라우드, 하이브리드 플랫폼에 해당됩니다.
자기소개 및 국내 데이터 업계의 흐름
2010년도부터 시작되는 데이터 업계는 10년이 넘게 지난만큼, 다양한 변화가 있었습니다. 그 변화를 추상화해서 단계로 나누면 아래와 같은습니다:
- 2010 ~ 2012 - 저장만 해도 기쁜 시기: 대부분 DB가 득세하고 Hadoop을 설치하고 데이터만 넣어도 만족하던 시기였습니다. 가이드와 문서 모두 부족했기에, 대부분 백엔드 엔지니어가 이 시기에 데이터쪽으로 전향하여 지형을 구축해갔습니다.
- 2012 ~ 2012 - 집계만 되어도 칭찬받는 시기: 데이터 처리를 위해 복잡한 MR(MapReduce) 코드를 짜야했습니다. 대형 SI 업체에서 최고가로 프로그램 1개당 1억도 부르던 시기로, Hive와 같이 더 쉽게 코드를 작성하게 해주는 서비스가 탄생하면서 점점 고도화되었고, 진입장벽이 낮아졌습니다.
- 2013 ~ 2014 - 분석 리포트 천국 시기: 좋은 엔진(Hive, Impala, Tajo, Presto)과 좋은 시각화 도구(Tableau, Plotly)가 만나 분석가와 비즈니스 전문가에게 리포트 천국의 시기를 안겨주었습니다.
- 2014 ~ 2016 - 실험 중시 시기: 처리와 분석을 기반으로 A/B 테스팅과 같은 실험이 많은 관심을 받는 시기였습니다.
- 2016 ~ 2018 - 머신러닝 유행과 데이터의 일반화 시기: 알파고의 등장과 더불어 데이터를 모아 뭔가 해보자는 요구가 다양한 산업군에서 발생하기 시작했습니다.
- 2018 ~ 2020 - 대 그로스 시기: 복잡하고 어렵던 기술들이 상품화되어 편리해졌습니다. 그로스 해킹이 큰 트렌드로 스마트스토어, 미디어 커머스의 발전에 퍼포먼스 마케팅에 다양한 직군(PM, PO, 기획자, 마케터 등)이 관심을 가지기 시작했습니다. 성숙기입니다.
내용 중에서 그렇기에 지금 시점이 '데이터 대 그로스 시기'라고 진단합니다. 그리고 성숙기라고 진단한만큼, 다른 성숙한 업계와 같이 다음과 같은 특징을 지닙니다:
- '진짜' 실적을 내야합니다. 가트너의 하이프 사이클처럼 이제 환상은 없고, 기술이 실질적인 가치로 평가받습니다.
- 부분들을 이루는 기능을 모두 상품화 되었습니다. 이제 넓은 범위에 존재하는 기능 상품들을 각 상황에서 엮어서 성공으로 만드는 부분이 중요해졌습니다.
이어지는 부분에서는 '대 그로스 시기'가 좀 더 구체적으로 어떻게 만들어져 탄생 되었는지, 그러한 배경에서 어떻게 일을 하고 어떤 일을 해야하는지에 대해 말합니다.
728x90데이터사이언티스트가(DS) 하는 일(해야할 일)
스타트업은 잘 합니다.
왜 그럴까 생각해보면, 상반되는 대기업을 살펴보면 됩니다.
대기업도 작을 때가 있었습니다. 사업이 잘되면서 덩치가 커져왔고, 목적조직 형태로 신사업을 탄생시켜왔습니다.
잘 되는 신사업도 있고, 망하는 신사업도 있기에, 망한 신사업의 유휴인력이 발생하는 것을 막기위해 시간이 지나며 목적조직을 기능별로 재조직화해서 개발자만, 기획자만, 마케터만 한 부서에 몰아넣고 여러가지 신사업을 담당하도록 하게 되었습니다.
장점도 있지만, 부서 간 소통이 느려지고, 일이 어떻게 진행되고 있는지 파악이 어려워 집니다(간단한 질문도, 부서 간 팀장을 거쳐야 하는 과정으로 변질되게 됩니다).
그렇기에, 대기업도 TF라는 형태로 목적조직화를 통해 다시 팀을 '작게' 만들어가고 있습니다.
그로스 해킹과 데이터 기반의 의사결정의 본질은 그렇게 팀을 다시 작게 만들어 커뮤니케이션 비용을 극단적으로 줄이고, 빠르게 실험하고 행동하며 성장을 촉진시키는 데에 있습니다. 그렇기에, 부서 간의 느린 커뮤니케이션으로는 그로스 해킹과 데이터 기반의 의사결정의 본질이 벗어나게 됩니다.
어떻게 일을 해야 하는가? 는, 간단합니다.
목적조직 안에서 커뮤니케이션 비용을 더 줄이고, 빠르게 실험하고 행동하기 위해 병목을 판단하고 제거해가는 부분에 초점을 맞추어 일을 해야합니다.
조금 더 실질적인 예시로, 책 'The Self-Service Data Roadmap'에 나오는 Time-to-insight Score 카드를 작성하고, 많이는 부분부터 줄여나가라는 부분과 깊게 연관됩니다.
어떤 일을 해야하는가? 와 관련해서는 마주한 상황에 적절한 판단 기준이 될 '과거, 현재, 미래'의 관점을 제시합니다.
각 순서별로 우선하며, 이전 단계가 제대로 진행되지 않은 경우 다음 단계가 제대로 진행될 수 없습니다. 각 항목별로는 아래와 같습니다:
- 과거: 지난 매출에 대한 분석, 가입한 고객에 대한 분석 등의 항목으로 많은 경우 이러한 데이터가 잘 남겨지지 않아서 데이터를 제대로 저장하는 부분부터 시작하게 될 공산이 큰 단계입니다.
- 현재: 광고효율, 유저획득과 같은 사항들로 '제품과 서비스 홍보', '첫 고객 경험(NUX)' 개선 등을 A/B 테스팅 등으로 개선해나가는 부분입니다. DS, 그로스 해킹, 퍼포먼스 마케팅과 많이 중첩되는 부분으로 기술적 속성, 마케팅 속성의 차이가 조금씩 존재합니다.
- 미래: 이탈예측, 개인화 추천 등으로 많은 DS 지원자들이 흥미로워하고 하고 싶어하는 일이기도 합니다(하지만 현실은 과거 단계에 머무를 수 있습니다 ㅜ)
관련되어, DS의 부푼 꿈을 안고 업계에 회사에 입사하시는 경우 데이터와 관련된 회사의 단계가 내가 가진 기술 스택과 관심 분야와 잘 맞는가를 잘 살펴보시기를 권장드립니다. 개인적으로 경험해본 바에 의하면, 100명 내외 신생 이커머스, 100명 내외 글로벌 핀테크, 1000명 내외 이커머스에서 1년 씩 일해본 결과, 데이터 플랫폼과 데이터 조직의 성숙도와 현재 니즈는 매우 다양합니다.
다음 글(#2)에서는 '데이터 팀을 일구기 위해 가장 먼저해야할 데이터 수집하기, 그리고 팀을 단계별로 발전시켜가기'에 대해 전달드리도록 하겠습니다. :)
Reference
[1] The Self-Service Data Roadmap
반응형'Data' 카테고리의 다른 글
(FASTCAMPUS) 패스트캠퍼스 온라인 'THE RED: 데이터사이언티스트 하용호' 후기 - 강의내용요약 #3 (0) 2020.12.24 'Cloudera Sessions Korea 2020'으로 보는 데이터 플랫폼의 변화 방향성 (0) 2020.12.23 (FASTCAMPUS) 패스트캠퍼스 온라인 'THE RED: 데이터사이언티스트 하용호' 후기 - 강의내용요약 #2 (0) 2020.12.21 데이터 엔지니어 공부를 위한 5권의 책 (2) 2020.12.19 빅데이터 거버넌스(Data Governance)의 정의 및 목적, 그리고 고려사항(및 도구)들 (0) 2020.12.19 [Hands On] 아파치 레인저(Apache Ranger) 도커(Docker) 환경에서 하둡(Hadoop) 서비스(HDFS, Hive, Presto) 연동 테스트하기 (0) 2020.12.18 주요 IT 기업의 모던 데이터 시스템 (0) 2020.12.12 [Hands-On] 도커 환경의 Airflow(에어플로우) 스케쥴러 고가용성(High Availability) 알아보기 (0) 2020.12.03