대규모 데이터 사이언스 프로젝트 시작하기 전 알아야할 개념과 설계
데이터 사이언스 프로젝트의 핵심개념개념설명예데이터 파이프라인데이터 처리 흐름을 단계별로 자동화하는 과정데이터 읽기 → 전처리 → 모델 학습 → 결과 저장파이프라인 관리 프레임워크파이프라인 단계들을 체계화, 재현 가능하게 만드는 도구Kedro, Metaflow, Airflow모델링 프레임워크머신러닝/딥러닝 모델을 학습시키고 사용하는 도구Scikit-learn, PyTorch, TensorFlow분산처리 프레임워크데이터가 너무 클 때 여러 컴퓨터/CPU로 나눠서 처리하는 도구Spark, Dask자동화(Orchestration)파이프라인이나 모델 학습을 스케줄링하거나 자동 실행Airflow, Prefect, Dagster워크플로우 관리파이프라인보다 더 넓게, 다양한 작업 흐름을 관리Airflow, Metafl..
2025. 5. 4.