hadoop
-
[Hands On] 아파치 레인저(Apache Ranger) 도커(Docker) 환경에서 하둡(Hadoop) 서비스(HDFS, Hive, Presto) 연동 테스트하기Data 2020. 12. 18. 22:47
| 이 글은 제가 작성한 원본(영어) 에 좀 더 현실적인 컨텍스트를 더해 작성하였습니다. 데이터 플랫폼이 클라우드 환경이라면 제공되는 기본적인 서비스와 추가할 서비스의 연동은 어느 정도 보장 되고, 아직 규모가 많이 크지 않은 환경에서는 그런 부분이 큰 우선순위로 여겨지지 않기 때문에 비교적 데이터 플랫폼 운영자 입장에서 크게 신경을 쓰는 부분이 아닌 듯 합니다. 그러나, 어느 정도 규모가 있는 온프레미스 데이터 플랫폼을 운영하다보면, 데이터 사용자가 필요한 서비스나 도구를 추가할 때에 자주 '권한관리' 부분이 병목이 됩니다. 기존 운영하던 Apache Sentry와 인하우스의 조합으로는 Presto, Spark 등 끊임없이 개선되고 추가되는 다양한 데이터 시스템을 빠르게 연동하고 데이터 플랫폼에 안정적..
-
주요 IT 기업의 모던 데이터 시스템Data 2020. 12. 12. 11:29
이번 글에서는 주요 IT기업의 데이터 시스템을 중점으로 데이터 엔지니어링이 무엇인지 알아보려고 합니다. 이 글은 한글로 된 데이터 엔지니어링 관련 자료가 많이 없는 것으로 보여 이해를 돕기 위해 고려사이버대학 소프트웨어공학과 졸업 논문으로 쓰여진 원문(영어)을 바탕으로 작성하였습니다. 초록 최근 IT 기업에서 발생하는 다양한 요구사항을 충족시키기 위해서 많은 데이터 도구들이 개발되어 왔습니다. 각 도구들의 탄생 배경은 다양하고 달라보이나 추상화와 구조화를 통해 다양한 도구들을 일관된 프레임으로 비교하고 분석할 수 있습니다. 아래에서는 기존에 데이터 파이프라인[3]에 자주 사용되던 개념인 ETL을 확장하여 6가지 단계(Collect, Move, Store, Process, Use, Orchestrate)로..