Data
-
아파치 하이브란? (Apache Hive)Data 2021. 2. 24. 22:21
아파치 하이브는 하둡 환경에서 1) 복잡한 맵리듀스(또는 다른 엔진) 코드를 SQL과 유사한 간단한 HiveQL로 처리가 가능하도록 하고, 2) 파일시스템에 저장된 데이터에 catalog와 metastore를 제공하여 논리적 데이터 베이스, 테이블, 파티션을 제공하여 데이터를 구조화할 수 있게 합니다. 이번글에서는 아파치 하이브의 구조를 중심으로 아래와 같은 내용을 살펴보도록 하겠습니다: 하이브의 탄생배경 아파치 하이브 아키텍쳐 하이브의 데이터모델과 쿼리 (Hive QL) 하이브의 탄생배경 하이브는 페이스북에서 개발이 시작되어, 넷플릭스와 같은 다른 기업도 기여하였습니다. 2000년대 초, 하둡이 탄생하여 데이터 분석은 데이터베이스 기반에서 하둡 환경을 기반으로 진행되기 시작하였습니다. 하둡은 기존의 데..
-
"데이터 경제를 위한 비지니스 모델"을 읽고 (feat. 한국 데이터 기업)Data 2021. 2. 2. 07:36
그것이 빅데이터든, 데이터사이언스 또는 단순히 분석이든 모던 비지니스는 데이터를 금광으로 바라봅니다. 때로는 단순히 하고 있는 일을 더 잘 이해하기 위해서, 때로는 인사이트를 얻기 위해서 데이터를 모으기도 하는데요. 무엇이 되었든 데이터는 비지니스를 개선하는데 특정한 가치를 지니고 있습니다. 데이터를 이익이 나는 것으로 변모시키는 방법은 무수히 많으나, 이 글에서는 아래와 같은 구조로 전달하려고 합니다: Collect / Supply Store / Host Filter / Refine Enhance / Enrich Simplify Access Analyze Obscure Consult / Advise Collect / Supply 데이터를 수집하여 데이터셋을 만들고 그것을 판매하는 방식입니다. 특정 데이..
-
주니어 데이터 엔지니어의 공부방법Data 2021. 1. 27. 23:06
이 글에서는 비전공자로 시작해 지난 3년 간, 이커머스 그리고 핀테크 도메인의 클라우드(AWS), 이커머스 온프레미스(Hadoop) 기반의 데이터 환경에서 주니어 데이터 엔지니어로 근무하며 각 도메인과 환경에서 공부 했던 부분들을 정리해보려고 합니다. 신입 또는 다른 개발 직군에서 피벗을 고려하시는 분들이 공부방법을 많이 찾으시는 듯 한데, 도움이 되었으면 합니다. 지향하는 데이터상품군을 파악하고 환경 만들기 공부하는데 참고한 자료들 지향하는 데이터상품군을 파악하고 환경 만들기 이 장에서는 데이터 환경에 노출되고 있지 않다면, 어떤 데이터상품군을 지향하는지 파악하고 배워가는 정보가 지식으로 연결될 수 있는 환경(주로 프로젝트에 대한) 만들기를 다룹니다. 그렇기에 현재 '데이터 관련 업무'를 진행하신다면,..
-
데이터 품질 (Data Quality)Data 2021. 1. 27. 22:28
데이터 품질은 모든 '데이터 상품'의 기반이 됩니다. 그렇기에 데이터 관련 주요 Stake Holders들(데이터분석가, 데이터사이언티스트, 데이터엔지니어 등)에게는 매우 중요한 부분입니다. 또한, 데이터 거버넌스의 목적이 '데이터에 대한 신뢰성 확보'라는 점을 볼 때에도, 데이터 거버넌스의 중심적인 부분에 '데이터 품질 관리'가 차지하고 있다는 사실을 알 수 있습니다. 이 글에서는 빅데이터 이전에도 다뤄지던 개념인 데이터 품질의 발전사와 그 내용을 살펴보고, 빅데이터 환경에서 사용되는 (파악 가능한) 도구들을 살펴보겠습니다. Reference www.vldb.org/pvldb/vol11/p1781-schelter.pdf github.com/great-expectations/great_expectatio..
-
[Hands On] 도커 기반 하둡 살펴보기 (HDFS, YARN, MapReduce, Hive)Data 2021. 1. 27. 21:58
처음 하둡을 공부하려고 했을 때, 하둡이 무엇이고 정확히는 무엇인지 실체를 알기 어려웠습니다. 더욱 어려웠던 부분은, 책과 이론적인 내용들은 많은 자료가 있었으나 직접 튜토리얼을 진행하고자 하면 HDFS, YARN, MapReduce, Hive 등 다양한 서비스를 설치하고 설정을 연동해야한다는 부분이었습니다. 시간이 지나 되돌아보니, 간단한 docker-compose up을 통해 하둡 환경이 로컬에 실행되고 HDFS 네임노드 및 데이터노드의 Web UI를 통해 직접 글로 봤던 사항을 확인해보고 Hive 쿼리를 바로 로컬에서 실행해볼 수 있었으면 더 빨리 배울 수 있었을 것 같다는 생각을 많이 했었습니다. 이 글에서는 Big Data Europe에서 제공한 docker-hadoop [1]을 바탕으로 바로 ..
-
YARN 노드매니저(Node Manager)Data 2021. 1. 27. 21:28
노드매니저는 하둡(Hadoop) 프로젝트의 YARN 모듈 중 하나의 컴포넌트로 Worker 역할을 하며 클러스터에 속한 노드들에서 컨테이너를 실행하고, 각 컨테이너의 리소스 사용량을 모니터링하고 그것의 상태를 리소스매니저에 report하는 역할을 담당합니다. 이 글에서는 노드매니저의 상세한 기능과 그 구현을 알아보겠습니다: 노드매니저의 주요 기능과 컴포넌트 오버뷰 노드매니저의 주요 컴포넌트들 관련글: 목적과 탄생배경 YARN(하둡분산자원관리) 주요개념 및 아키텍쳐 YARN(하둡분산자원관리) 실행 구조 및 흐름 YARN 리소스매니저(Resource Manager) YARN 노드매니저(Node Manager) (이번글) 노드매니저의 주요 기능과 컴포넌트 오버뷰 노드매니저는 하둡 YARN 클러스터의 개별 컴퓨..
-
Data-Driven UX란?Data 2021. 1. 23. 18:08
| UX 경험이 없는 엔지니어가 적음. 기업 내에서 데이터는 다양한 형태로 사용됩니다. 사용자의 웹 상의 행동 로그 데이터에 기반한 분석이나, 상품을 추천하기 위한 추천모델, 특정 목적을 위한 ML 모델 등이 그러한 다양한 형태의 구체적인 모습입니다. 하지만, 분석가 또는 데이터사이언티스트 등의 한정된 직무의 관점에서 보면 각 직군의 다른 부분일 수 있는 그러한 복잡하고 다양한 요소들이 UX라는 관점에서 보면 모두 기업의 최종적인 목적인 이익을 올리기 위한 '사용자 경험 개선'이라는 항목으로 묶여지곤 합니다. 그러한 UX라는 넓은 주제에서, Data-Driven이라는 말에서 Data라는 부분이 컨택스트 상 컴퓨터로 수치화 되어 수집된 데이터로 한정되기에 정성적인 유저리서치는 제외될 수 밖에 없습니다. 이..
-
YARN 리소스매니저(Resource Manager)Data 2021. 1. 23. 12:38
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiator) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 YARN(하둡분산자원관리) 주요개념 및 아키텍쳐 YARN(하둡분산자원관리) 실행 구조 및 흐름 YARN 리소스매니저(Resource Manager) (이번글) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 YARN의 다양한 기능들은 크게 2가지 레이어로 나뉩니다: platform 레이어: 리소스 관리와 최상위레벨 스케쥴링을 담당. 리소스매니저와 노드매니저가 해당됨. framework 레이어: 애플리케이션의 실행 조정이나 second-레벨 스케쥴링을 담당. 애플리케이션..