Software Engineering
-
YARN 리소스매니저(Resource Manager)Data 2021. 1. 23. 12:38
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiator) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 YARN(하둡분산자원관리) 주요개념 및 아키텍쳐 YARN(하둡분산자원관리) 실행 구조 및 흐름 YARN 리소스매니저(Resource Manager) (이번글) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 YARN의 다양한 기능들은 크게 2가지 레이어로 나뉩니다: platform 레이어: 리소스 관리와 최상위레벨 스케쥴링을 담당. 리소스매니저와 노드매니저가 해당됨. framework 레이어: 애플리케이션의 실행 조정이나 second-레벨 스케쥴링을 담당. 애플리케이션..
-
YARN(하둡분산자원관리) 실행 구조 및 흐름Data 2021. 1. 23. 10:41
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiaor) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 YARN(하둡분산자원관리) 주요개념 및 아키텍쳐 YARN(하둡분산자원관리) 실행 구조 및 흐름 (이번글) YARN 리소스매니저(Resource Manager) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 YARN에 Application 제출 시 일어나는 일들 중앙의 리소스매니저는(ResourceManager) 특정 머신에 standalone 데몬으로 실행되며 자원을 차지하기 위해 경쟁하는 다양한 애플리케이션들의 중재자 역할을 합니다. 리소스매니저는 클러스터의 모든 자..
-
YARN(하둡분산자원관리) 주요개념 및 아키텍쳐Data 2021. 1. 21. 22:19
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiaor) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 주요개념과 아키텍쳐 (이번글) YARN(하둡분산자원관리) 실행 구조 및 흐름 YARN 리소스매니저(Resource Manager) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 관련글: 하둡이란? (Apache Hadoop) HDFS란? (하둡분산파일시스템) YARN은 초기 하둡의 맵리듀스에 구현되어 있던 JobTracker와 TaskTracker에 기반해 발전했습니다. 더 뛰어난 확장성, 클러스터 사용률 부분이외에도 하둡 환경의 발전 관점에서 보면 Tez, Spark..
-
HDFS 네임노드 및 데이터노드의 기능과 구현Data 2021. 1. 20. 18:23
HDFS는 하둡 환경에서 분산 파일 시스템 기능을 담당하는 하둡의 주요 모듈입니다. 이번 글에서는 HDFS와 관련해 다음과 같은 부분들을 다루고자 합니다: HDFS의 주요 목적 HDFS 주요 개념 및 아키텍쳐 HDFS(하둡분산파일시스템) 읽기, 쓰기, 삭제 시의 Flow 살펴보기 HDFS 네임노드 및 데이터노드의 기능과 구현 (이번글) 관련글: 하둡이란? (Apache Hadoop) 이 글에서는 네임노드와 데이터노드 각각 기능과 그 동작방식을 상세히 살펴보겠습니다. 네임노드의 기능과 구현 Namespace Management 네임노드는 네임스페이스를 관리합니다. 이러한 부분에는 3개의 데이터 구조과 연관되어 있습니다 [7]: Namespace: 각 노드의 메타데이터와 같이 네임스페이스는 파일 또는 디렉토..
-
HDFS(하둡분산파일시스템) 읽기, 쓰기, 삭제 시의 Flow 살펴보기Data 2021. 1. 20. 18:21
HDFS는 하둡 환경에서 분산 파일 시스템 기능을 담당하는 하둡의 주요 모듈입니다. 이번 글에서는 HDFS와 관련해 다음과 같은 부분들을 다루고자 합니다: HDFS의 주요 목적 HDFS 주요 개념 및 아키텍쳐 HDFS(하둡분산파일시스템) 읽기, 쓰기, 삭제 시의 Flow 살펴보기 (이번글) HDFS 네임노드 및 데이터노드의 기능과 구현 관련글: 하둡이란? (Apache Hadoop) 클라이언트, 네임노드, 데이터노드 간에 읽기, 쓰기, 삭제 시의 메커니즘을 알아보면 HDFS가 내부적으로 어떻게 작동하는지 좀 더 상세하게 알 수 있습니다. 이번 글에서는 각 Operation별로 어떤 Flow로 요청과 데이터가 흐르는지 각각 이미지와 같이 알아보겠습니다. Read HDFS Client는 Distributed..
-
HDFS(하둡분산파일시스템) 주요 개념 및 아키텍쳐Data 2021. 1. 20. 18:18
HDFS는 하둡 환경에서 분산 파일 시스템 기능을 담당하는 하둡의 주요 모듈입니다. 이번 글에서는 HDFS와 관련해 다음과 같은 부분들을 다루고자 합니다: HDFS의 주요 목적 HDFS 주요 개념 및 아키텍쳐 (이번글) HDFS(하둡분산파일시스템) 읽기, 쓰기, 삭제 시의 Flow 살펴보기 HDFS 네임노드 및 데이터노드의 기능과 구현 관련글: 하둡이란? (Apache Hadoop) HDFS는 기존 파일시스템과 다른 점으로 인해 처음 접하시는 분들이라면 익숙하지 않을 개념들이 있습니다. 주요한 개념들의 정의를 살펴보며, 대략적인 아키텍쳐에 대해 전달해보고자 합니다. 블록 (Blocks) 디스크는 데이터가 읽히고 쓰여질 수 있는 가장 작은 단위인 블록을 가집니다. 한 개의 디스크에 기반한 파일시스템은 디스..
-
YARN이란? (하둡분산자원관리)Data 2021. 1. 19. 07:26
하둡(Hadoop) 프로젝트의 YARN(Yet Another Resource Negotiaor) 모듈은 분산 환경에서의 자원관리를 담당합니다. 이 글에서는 YARN과 관련해 다음과 같은 항목을 다룹니다: 목적과 탄생배경 (이번글) YARN (하둡분산자원관리) 주요개념 및 아키텍쳐 YARN(하둡분산자원관리) 실행 구조 및 흐름 YARN 리소스매니저(Resource Manager) YARN 노드매니저(Node Manager) 운영과 관련한 사항들 관련글: 하둡이란? (Apache Hadoop) HDFS란? (하둡분산파일시스템) YARN은 2006년 야후의 이 하둡을 오픈소스로 출시한지 6년 후인, 2012년에 하둡 모듈로 정식 포함되었습니다. 6년여 기간 동안 YARN 없이도 맵리듀스와 HDFS를 사용했다는..
-
파이썬으로 구글 시트 생성 후 다른 유저에게 공유하기Python 2021. 1. 16. 21:35
이번 글에서는 스크래핑, 업무자동화에 자주 사용되는 구글 시트를 생성하고, 해당 시트에 다른 유저를 오너로 등록하는 방법을 알아보겠습니다. 테스트를 위해서는 구글 계정 2개가 필요하며 아래와 같은 순서로 진행됩니다: 구글 디벨로퍼 콘솔 접속 및 계정 등록 구글 디벨로퍼 프로젝트 생성 및 Google Sheets & Drive API Enable 프로젝트 Credentials 생성하기 파이썬으로 구글 시트 생성 및 다른 유저를 오너로 등록 테스트 자주 발생하는 에러 해결법 구글 디벨로퍼 콘솔 접속 및 계정 등록 먼저, 생성한 계정 2개 중 파이썬을 사용해 Google Sheet를 API로 생성하고 다른 유저를 오너로 등록할 계정을 등록하여야 합니다. 구글 디벨로퍼 콘솔로 접속하면 아래와 같은 화면이 보입니..