Software Engineering
-
[Hands On] 아파치 에어플로우 도커환경에서 핸즈온 - #1 기초 (Apache Airflow)Data 2021. 3. 1. 21:22
아파치 에어플로우는 '작업흐름'을 코드를 통해 작성하고, 스케쥴하고, 모니터링하기 위한 데이터 워크플로우 매니지먼트 도구입니다. 여기서 작업흐름은 하나이 쉘 스크립트를 실행하는 것, 웹사이트에 접근에 특정 수행을 통해 데이터를 다운 받고 다운이 받아졌다면 파싱하여 슬랙 알림을 보내는 것 등 다양한 의존적인 작업들의 흐름이 포함됩니다. 이 글에서는 도커 환경에서 아파치 에어플로우 클러스터를 빠르게 올려서 아래와 같은 사항들을 중점으로 설명드리도록 하겠습니다: 준비사항 주요개념 간단한 작업 수행 시 일어나는 일들 아파치 에어플로우 클러스터 아키텍쳐 준비사항 및 클러스터 띄우기 아래 도커 환경에서 아파치 에어플로우를 실행하기 위해서는 아래와 같은 것들이 필요합니다: Git Docker 및 Docker Comp..
-
IPFS란? (InterPlanetary File System)SE General 2021. 2. 25. 21:21
IPFS (InterPlanetary File System)이란 프로토콜이며, 분산 파일 시스템에서 데이터를 공유하고 저장하기 위한 peer-to-peer 네트워크입니다. IPFS는 모든 컴퓨팅 기기를 연결하는 글로벌 네임스페이스에서 각 파일을 식별하기 위해서 content-addressing을 사용합니다 [5]. 이와 같은 IPFS는 일면으로 웹과 유사하나, IPFS는 하나의 Git repository 안의 객체를 교환하는 하나의 BitTorrent Swarm에 좀 더 가깝습니다. 다른 표현으로는, IPFS는 높은 처리량의 content-addressed 블록 스토리지 모델을 content-addressed 하이퍼링크를 통해 제공합니다. 그리고 이것은 일반화된 Merkle Dag를 형성하여 버져닝된 파..
-
아파치 하이브란? (Apache Hive)Data 2021. 2. 24. 22:21
아파치 하이브는 하둡 환경에서 1) 복잡한 맵리듀스(또는 다른 엔진) 코드를 SQL과 유사한 간단한 HiveQL로 처리가 가능하도록 하고, 2) 파일시스템에 저장된 데이터에 catalog와 metastore를 제공하여 논리적 데이터 베이스, 테이블, 파티션을 제공하여 데이터를 구조화할 수 있게 합니다. 이번글에서는 아파치 하이브의 구조를 중심으로 아래와 같은 내용을 살펴보도록 하겠습니다: 하이브의 탄생배경 아파치 하이브 아키텍쳐 하이브의 데이터모델과 쿼리 (Hive QL) 하이브의 탄생배경 하이브는 페이스북에서 개발이 시작되어, 넷플릭스와 같은 다른 기업도 기여하였습니다. 2000년대 초, 하둡이 탄생하여 데이터 분석은 데이터베이스 기반에서 하둡 환경을 기반으로 진행되기 시작하였습니다. 하둡은 기존의 데..
-
파이썬 int 내부구조 (Python int Internals)Python 2021. 2. 22. 21:59
Python 버젼 2.2 이후로는 파이썬에서의 정수는 언제나 int 타입을 가집니다 (이전에는 short int, long int 2가지로 나뉘어 있었습니다)[2]. 그리고 int 타입의 크기는 오로지 가용한 메모리 사이즈로 인해 제한 받습니다. 파이썬 int가 가질 수 있는 max 값(바이트로)은 아래와 같은 sys.maxsize를 통해 구할 수 있는데요: import sys print(sys.maxsize) # 9223372036854775807 이번 글에서는 파이썬 int가 cpython에서 어떻게 구성되는지 살펴보겠습니다: cpython longobject 내부구조 파이썬의 다양한 int 값은 실제 어떻게 cpython longobject에 저장되나 cpython longobject 내부구조 in..
-
서블릿의 세션 관리 (Servlet Session Management)Java 2021. 2. 21. 16:35
세션은 특정 시간의 구간을 의미하며, 세션 관리는 사용자의 상태를 유지하는 방법을 말합니다. 이러한 세션관리가 필요한 이유는 사용자에게 상태를 부여해야할 경우가 존재하기 때문입니다. 예로, 사용자 상태를 관리하여 매 페이지를 이동할 때마다 로그인을 요구하지 않고 세션을 통해 이미 로그인 한 사용자임을 입증할 수 있습니다. 그러나, HTTP 프로토콜은 그 자체로 stateless하기 때문에, HTTP 프로토콜 '바깥'에서 이러한 상태 관리를 담당하여야 합니다. 서블릿의 명세 상에서 이러한 세션 관리는 톰캣과 같은 서블릿 컨테이너가 담당합니다. '톰캣 내부구조'에서 살펴본 바와 같이, 세션은 주로 아래의 2가지 방법으로 관리됩니다: 브라우저 상의 쿠키를 통해서 URL Rewriting을 통해서 이번 글에서는..
-
아파치 톰캣 내부구조 (Apache Tomcat Internals)Java 2021. 2. 17. 18:53
컨텍스트를 이해하며 알아보는 Nginx 내부구조 아파치 톰캣 내부구조 (Apache Tomcat Internals) 아파치 톰캣은 Java Servlet, JavaServer Pages, Java Expression Language와 WebSocket 기술의 오픈소스 구현체로, Java 코드가 실행될 수 있는 "pure Java" HTTP Web server 환경을 kadensungbincho.tistory.com 아파치 톰캣은 Java Servlet, JavaServer Pages, Java Expression Language와 WebSocket 기술의 오픈소스 구현체로, Java 코드가 실행될 수 있는 "pure Java" HTTP Web server 환경을 제공합니다 [1]. 웹 서버 역할을 하는 ..
-
서블릿(Servlet)의 구조와 접근방식 (feat. CGI)Java 2021. 2. 16. 08:18
서블릿은 자바 소프트웨어 컴포넌트로 클라이언트의 요청을 처리하기 위해서 서버 안에서 실행됩니다 [1, 2]. 서블릿은 특정 클라이언트 프로토콜에 한정되지 않으나, 주로 HTTP를 많이 사용하기에 Servlet은 보통 HTTP Servlet을 의미하곤 합니다. 서블릿은 Sun Microsystems에 의해 CGI의 한계점을 극복하기 위해 개발되었습니다. 서블릿은 javax.servlet 또는 javax.servlet.http 패키지에 존재하는 자바 인터페이스를 implement하여 만들어 집니다. HTTP 서블릿은 주로 아래와 같은 목적을 위해 사용됩니다: HTML 폼 형태로 제출된 데이터의 처리 및 저장 동적 컨텐츠 제공 (예로, 클라이언트에 쿼리 요청에 해당되는 데이터를 데이터베이스에서 읽어서 전달) ..
-
웹서버, 앱서버 그리고 CGI (Web & Application Server and CGI)Java 2021. 2. 14. 22:25
Java 기반의 웹 애플리케이션을 개발 시, 로컬에서 src/java와 src/webapp의 파일들을 서버에 올리고 실행하여 http://localhost:8080으로 들어가 체크하게 됩니다. 반면, 배포 시 어떠한 경우에는 web과 같은 경우는 하나의 서버에 그리고 src/java의 파일들을 포함한 war 파일로 압축한 것은 다른 서버에 나누어 배포 하기도 합니다. 이 글에서는 아래와 같은 사항을 중점으로 웹 서버(전자)와 애플리케이션 서버(후자), 그리고 웹 서버와 앱 서버의 커뮤니케이션을 담당하는 CGI(Common Gateway Interface)에 대해 기술합니다: CGI 웹 서버와 애플리케이션 서버 CGI 가장 처음의 그래픽 웹 브라우저인 Mosaic 브라우저가 탄생했던 웹 초창기에 stati..