대규모 데이터 사이언스 프로젝트 시작하기 전 알아야할 개념과 설계

IT/Data Analysis

대규모 데이터 사이언스 프로젝트 시작하기 전 알아야할 개념과 설계

Cyber_ 2025. 5. 4. 21:17

데이터 사이언스 프로젝트의 핵심개념

개념	설명	예
데이터 파이프라인	데이터 처리 흐름을 단계별로 자동화하는 과정	데이터 읽기 → 전처리 → 모델 학습 → 결과 저장
파이프라인 관리 프레임워크	파이프라인 단계들을 체계화, 재현 가능하게 만드는 도구	Kedro, Metaflow, Airflow
모델링 프레임워크	머신러닝/딥러닝 모델을 학습시키고 사용하는 도구	Scikit-learn, PyTorch, TensorFlow
분산처리 프레임워크	데이터가 너무 클 때 여러 컴퓨터/CPU로 나눠서 처리하는 도구	Spark, Dask
자동화(Orchestration)	파이프라인이나 모델 학습을 스케줄링하거나 자동 실행	Airflow, Prefect, Dagster
워크플로우 관리	파이프라인보다 더 넓게, 다양한 작업 흐름을 관리	Airflow, Metaflow

상황별 프레임워크 조합

프로젝트 유형	데이터 소스	목표	추천 프레임워크 조합
기본 데이터 분석	CSV, Excel	데이터 탐색, 간단한 예측	pandas + scikit-learn
딥러닝 모델링	이미지, 텍스트	분류, 생성, 예측	pandas + PyTorch 또는 TensorFlow
대용량 데이터 분석	CSV, Parquet, DB	데이터 전처리, 모델 입력	pandas + Dask 또는 Spark
재현 가능한 파이프라인 분석	다양한 파일 + DB	반복 가능한 분석 파이프라인	Kedro + scikit-learn 또는 PyTorch
분산 딥러닝	이미지, 텍스트	대규모 딥러닝	PyTorch + Dask 또는 Spark
자동화된 데이터 분석	파일 + API + DB	주기적 실행, 결과 리포트	Kedro + Prefect 또는 Airflow
복합 데이터 분석	CSV, API, DB, 웹 크롤링	통합 분석, 예측, 보고서 자동화	Kedro + Dask/Spark + PyTorch + Prefect

프로젝트 발전 단계

단계	특징	프레임워크
단일 데이터 분석	CSV, Excel로 데이터 분석	pandas, scikit-learn
반복 가능한 분석	데이터 파이프라인화 → 재현성 확보	Kedro, Metaflow
복합 데이터 분석	다양한 데이터 소스 통합, 복잡한 전처리	Kedro + scikit-learn/PyTorch
자동화 및 확장	주기적 실행, 모델 관리, 대규모 데이터 처리	Kedro + Prefect/Airflow + Spark/Dask

재현 가능한 파이프라인에서 복합 데이터 분석으로의 확장

재현 가능한 파이프라인은 복합데이터 분석으로 발전하는데 자연스러운 단계를 제공합니다.

여기서 Kedor의 강점은 다음과 같습니다.

- node와 pipeline을 추가하는 방식으로 확장 가능

- 복잡성이 증가해도 기존 코드를 수정할 필요 없음

- 재현성과 확장성 이 뛰어남

결론적으로 대규모 프로젝트를 앞두고 설계를 시작한다면 우선적으로 Kedro를 차용하여 이 파이프라인 안에서 분석을 시작하는 것이 확장성 측면에서 이점이다. 하지만 러닝커브가 높을 수 있으니 팀원들의 역량을 고려해야 한다.

정리하자면

데이터 사이언스 프로젝트는 단순한 분석에서 재현가능한 파이프라인, 그리고 복합 데이터 분석과 자동화로 발전합니다. 프로젝트의 목적과 복잡성에 따라 적절한 프레임워크 조합을 선택하는 것이 생산성과 유지보수성을 결정 짓습니다. 이번 프로젝트에서 Kedro를 통해 구조화된 파이프라인을 구축하고, 향후 PyTorch 및 Prefect 등을 통합하는 방향이 적절합니다.