Skip to content

skh1225/riot_api_crawling

Repository files navigation

airflow

airflow 설치

cd airflow

# airflow 설치를 위해 postgresql, redis 등 실행
docker compose up airflow-init

# airflow 실행
docker compose up

airflow webserver

  1. 8088 포트로 접속
  2. Dags
  • gcs_to_mongo_v1 : raw 데이터를 1차 가공하여 저장한 후, 통계 데이터를 산출하여 mongodb에 주기적으로 적재
  • bigquery_full_refresh_v1 : GCS에 1차 가공된 데이터를 bigquery로 적재
  • delete_gcs_object_v1 : 일주일에 한번씩 raw데이터 삭제

spark

  • spark 스크립트, spark 스크립트에서 사용되는 schema가 저장되어 있음
  • 변경사항이 있다면 gnimty_bucekt의 pyspark, schema에 업데이트

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published