apacheairflow
-
[Hands On] 아파치 에어플로우 도커환경에서 핸즈온 - #1 기초 (Apache Airflow)Data 2021. 3. 1. 21:22
아파치 에어플로우는 '작업흐름'을 코드를 통해 작성하고, 스케쥴하고, 모니터링하기 위한 데이터 워크플로우 매니지먼트 도구입니다. 여기서 작업흐름은 하나이 쉘 스크립트를 실행하는 것, 웹사이트에 접근에 특정 수행을 통해 데이터를 다운 받고 다운이 받아졌다면 파싱하여 슬랙 알림을 보내는 것 등 다양한 의존적인 작업들의 흐름이 포함됩니다. 이 글에서는 도커 환경에서 아파치 에어플로우 클러스터를 빠르게 올려서 아래와 같은 사항들을 중점으로 설명드리도록 하겠습니다: 준비사항 주요개념 간단한 작업 수행 시 일어나는 일들 아파치 에어플로우 클러스터 아키텍쳐 준비사항 및 클러스터 띄우기 아래 도커 환경에서 아파치 에어플로우를 실행하기 위해서는 아래와 같은 것들이 필요합니다: Git Docker 및 Docker Comp..
-
[Hands-On] 도커 환경의 Airflow(에어플로우) 스케쥴러 고가용성(High Availability) 알아보기Data 2020. 12. 3. 23:44
| 이 글은 제가 작성한 원문(영어)을 번역한 글입니다. 오늘은 데이터 엔지니어링에서 Workflow Management 툴로 사용되는 에어플로우(Apache Airflow)에 대해 전달 드리려고 합니다. 에어플로우는 Apache Nifi, Streamsets 등과 비슷한 기능을 가지며, 데이터 엔지니어링에서 의존성을 가지는 다양한 작업의 실행을 DAG이라는 개념으로 묶어 관리의 관리를 도와주는 기능합니다. Streamsets은 프로덕션 레벨을 위해서는 비용을 지불하여야하고, Apache Nifi는 GUI로 관리가 가능한 반면 코드 제어하는 부분에 어려움이 있기 때문에, Python 기반의 Airflow는 데이터 파이프라인에서 작업 관리를 위해 많이 사용되곤 합니다. 작업을 실행하는 워커(Worker)나..