분류 전체보기 2

spark 완벽 가이드 - Part1 빅데이터와 스파크 간단히 살펴보기

Chapter 1 아파치 스파크란아파치 스파크는 통합 컴퓨팅 엔진이고 클러스터 환경에서 데이터를 병렬로 처리하는 라이브러리 집합아파치 스파크의 철학스파크는 ‘빅데이터 애플리케이션 개발에 필요한 통합 플랫폼을 제공하자’ 라는 핵심 목표를 가지고 있음스파크는 통합이라는 관점을 중시하면서 기능의 범위를 컴퓨팅 엔진으로 제한했고 그 결과 스파크는 저장소 시스템의 데이터를 연산하는 역할만 수행하고 영구 저장소 역할을 수행하지 않음스파크 컴포넌트는 데이터 분석 작업에 필요한 통합 API를 제공하는 통합 엔진 기반의 자체 라이브러리 Chapter 2 스파크 간단히 살펴보기스파크의 기본 아키텍쳐컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터 처럼 사용할 수 있게 함. 클러스터에서 작업을 조율할 수 있는 프레..

Spark 2024.10.19

airflow 구축 하기(with celery executor)

version airflow version 2.5.1 python 3.7.7 postgresql 구축 과정 airflow 공식 문서에서 제공하는 docker-compose.yml 파일 Running Airflow in Docker - Airflow Documentation curl -LfO '' docker-compose up을 하기전에 실행 경로에 ./dags ./logs ./plugins 세개의 디렉토리를 생성한다. 만약 다른 경로에 만들고 싶다면 AIRFLOW_PROJ_DIR 를 수정해주면 된다. 데이터 마이그레이션을 실행하고 첫 번째 사용자 계정을 생성하기 위해 아래와 같은 명령어를 입력한다. docker compose up airflow-init 초기화가 끝난면 다음과 같은 메시지를 볼 수 있다..

Aiflow 2023.02.07