Skip to content

Latest commit

 

History

History
23 lines (18 loc) · 696 Bytes

README.md

File metadata and controls

23 lines (18 loc) · 696 Bytes

airflow

airflow 설치

cd airflow

# airflow 설치를 위해 postgresql, redis 등 실행
docker compose up airflow-init

# airflow 실행
docker compose up

airflow webserver

  1. 8088 포트로 접속
  2. Dags
  • gcs_to_mongo_v1 : raw 데이터를 1차 가공하여 저장한 후, 통계 데이터를 산출하여 mongodb에 주기적으로 적재
  • bigquery_full_refresh_v1 : GCS에 1차 가공된 데이터를 bigquery로 적재
  • delete_gcs_object_v1 : 일주일에 한번씩 raw데이터 삭제

spark

  • spark 스크립트, spark 스크립트에서 사용되는 schema가 저장되어 있음
  • 변경사항이 있다면 gnimty_bucekt의 pyspark, schema에 업데이트