hadoop
-
YARN 리소스매니저(Resource Manager)Data 2021. 1. 23. 12:38
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiator) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 YARN(하둡분산자원관리) 주요개념 및 아키텍쳐 YARN(하둡분산자원관리) 실행 구조 및 흐름 YARN 리소스매니저(Resource Manager) (이번글) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 YARN의 다양한 기능들은 크게 2가지 레이어로 나뉩니다: platform 레이어: 리소스 관리와 최상위레벨 스케쥴링을 담당. 리소스매니저와 노드매니저가 해당됨. framework 레이어: 애플리케이션의 실행 조정이나 second-레벨 스케쥴링을 담당. 애플리케이션..
-
YARN(하둡분산자원관리) 실행 구조 및 흐름Data 2021. 1. 23. 10:41
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiaor) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 YARN(하둡분산자원관리) 주요개념 및 아키텍쳐 YARN(하둡분산자원관리) 실행 구조 및 흐름 (이번글) YARN 리소스매니저(Resource Manager) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 YARN에 Application 제출 시 일어나는 일들 중앙의 리소스매니저는(ResourceManager) 특정 머신에 standalone 데몬으로 실행되며 자원을 차지하기 위해 경쟁하는 다양한 애플리케이션들의 중재자 역할을 합니다. 리소스매니저는 클러스터의 모든 자..
-
YARN(하둡분산자원관리) 주요개념 및 아키텍쳐Data 2021. 1. 21. 22:19
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiaor) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 주요개념과 아키텍쳐 (이번글) YARN(하둡분산자원관리) 실행 구조 및 흐름 YARN 리소스매니저(Resource Manager) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 관련글: 하둡이란? (Apache Hadoop) HDFS란? (하둡분산파일시스템) YARN은 초기 하둡의 맵리듀스에 구현되어 있던 JobTracker와 TaskTracker에 기반해 발전했습니다. 더 뛰어난 확장성, 클러스터 사용률 부분이외에도 하둡 환경의 발전 관점에서 보면 Tez, Spark..
-
HDFS 네임노드 및 데이터노드의 기능과 구현Data 2021. 1. 20. 18:23
HDFS는 하둡 환경에서 분산 파일 시스템 기능을 담당하는 하둡의 주요 모듈입니다. 이번 글에서는 HDFS와 관련해 다음과 같은 부분들을 다루고자 합니다: HDFS의 주요 목적 HDFS 주요 개념 및 아키텍쳐 HDFS(하둡분산파일시스템) 읽기, 쓰기, 삭제 시의 Flow 살펴보기 HDFS 네임노드 및 데이터노드의 기능과 구현 (이번글) 관련글: 하둡이란? (Apache Hadoop) 이 글에서는 네임노드와 데이터노드 각각 기능과 그 동작방식을 상세히 살펴보겠습니다. 네임노드의 기능과 구현 Namespace Management 네임노드는 네임스페이스를 관리합니다. 이러한 부분에는 3개의 데이터 구조과 연관되어 있습니다 [7]: Namespace: 각 노드의 메타데이터와 같이 네임스페이스는 파일 또는 디렉토..
-
HDFS(하둡분산파일시스템) 주요 개념 및 아키텍쳐Data 2021. 1. 20. 18:18
HDFS는 하둡 환경에서 분산 파일 시스템 기능을 담당하는 하둡의 주요 모듈입니다. 이번 글에서는 HDFS와 관련해 다음과 같은 부분들을 다루고자 합니다: HDFS의 주요 목적 HDFS 주요 개념 및 아키텍쳐 (이번글) HDFS(하둡분산파일시스템) 읽기, 쓰기, 삭제 시의 Flow 살펴보기 HDFS 네임노드 및 데이터노드의 기능과 구현 관련글: 하둡이란? (Apache Hadoop) HDFS는 기존 파일시스템과 다른 점으로 인해 처음 접하시는 분들이라면 익숙하지 않을 개념들이 있습니다. 주요한 개념들의 정의를 살펴보며, 대략적인 아키텍쳐에 대해 전달해보고자 합니다. 블록 (Blocks) 디스크는 데이터가 읽히고 쓰여질 수 있는 가장 작은 단위인 블록을 가집니다. 한 개의 디스크에 기반한 파일시스템은 디스..
-
YARN이란? (하둡분산자원관리)Data 2021. 1. 19. 07:26
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiaor) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 (이번글) YARN (하둡분산자원관리) 주요개념 및 아키텍쳐 YARN(하둡분산자원관리) 실행 구조 및 흐름 YARN 리소스매니저(Resource Manager) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 관련글: 하둡이란? (Apache Hadoop) HDFS란? (하둡분산파일시스템) YARN은 2006년 야후의 이 하둡을 오픈소스로 출시한지 6년 후인, 2012년에 하둡 모듈로 정식 포함되었습니다. 6년여 기간 동안 YARN 없이도 맵리듀스와 HDFS를 사용했다는..
-
HDFS란? (하둡분산파일시스템)Data 2021. 1. 16. 10:56
HDFS는 하둡 환경에서 분산 파일 시스템 기능을 담당하는 하둡의 주요 모듈입니다. 이번 글에서는 HDFS와 관련해 다음과 같은 부분들을 다루고자 합니다: HDFS의 주요 목적 (이번글) HDFS 주요 개념 및 아키텍쳐 HDFS(하둡분산파일시스템) 읽기, 쓰기, 삭제 시의 Flow 살펴보기 HDFS 네임노드 및 데이터노드의 기능과 구현 관련글: 하둡이란? (Apache Hadoop) HDFS는 설계 시 특정 목적을 가지고 해당 목적을 만족시키기 위해 고안되었습니다. 또한, 그 요구사항을 만족하기 위해 희생한 부분들도 존재하는데요. 그러한 부분들을 알아보며 HDFS가 무엇이고, 어떤 것을 위해 만들어져서 사용되는지 사용하기에 적당하지 않은 곳은 어디인지 알아보겠습니다. HDFS의 주요 목적 HDFS는 구글..
-
하둡이란? (Apache Hadoop)Data 2021. 1. 15. 08:25
빅데이터와 관련해 자주 언급되는 것이 바로 하둡(Hadoop)입니다. 정확히는 아파치 하둡 프로젝트인 이 '하둡'은 '하둡 환경'을 중심으로 많은 프로젝트가 진행되면서 구분이 모호해지는 경우가 많은 듯 합니다. 이번 글에서는 아파치 하둡이 무엇이고, 구성하는 모듈은 어떤 것이 있으며 어떤 특성을 지니는지 알아보겠습니다. 관련글: HDFS란? (하둡분산파일시스템) YARN이란? (하둡분산자원관리) 맵리듀스란? (하둡분산처리엔진) 하둡과 하둡이 탄생한 배경 아파치 하둡은 오픈소스이며, 안정적이고 확장성있는 분산 컴퓨팅을 위한 프로젝트로 여러 소프트웨어 묶음을 말합니다. 프로젝트의 목적이 단순한 모델을 통해 수많은 컴퓨터로 이루어진 클러스터 환경에서 대량의 데이터를 처리할 수 있도록 하는 데에 있습니다 [1]..