IT/Data Analysis
대규모 데이터 사이언스 프로젝트 시작하기 전 알아야할 개념과 설계
Cyber_
2025. 5. 4. 21:17
데이터 사이언스 프로젝트의 핵심개념
개념 | 설명 | 예 |
데이터 파이프라인 | 데이터 처리 흐름을 단계별로 자동화하는 과정 | 데이터 읽기 → 전처리 → 모델 학습 → 결과 저장 |
파이프라인 관리 프레임워크 | 파이프라인 단계들을 체계화, 재현 가능하게 만드는 도구 | Kedro, Metaflow, Airflow |
모델링 프레임워크 | 머신러닝/딥러닝 모델을 학습시키고 사용하는 도구 | Scikit-learn, PyTorch, TensorFlow |
분산처리 프레임워크 | 데이터가 너무 클 때 여러 컴퓨터/CPU로 나눠서 처리하는 도구 | Spark, Dask |
자동화(Orchestration) | 파이프라인이나 모델 학습을 스케줄링하거나 자동 실행 | Airflow, Prefect, Dagster |
워크플로우 관리 | 파이프라인보다 더 넓게, 다양한 작업 흐름을 관리 | Airflow, Metaflow |
상황별 프레임워크 조합
프로젝트 유형 | 데이터 소스 | 목표 | 추천 프레임워크 조합 |
기본 데이터 분석 | CSV, Excel | 데이터 탐색, 간단한 예측 | pandas + scikit-learn |
딥러닝 모델링 | 이미지, 텍스트 | 분류, 생성, 예측 | pandas + PyTorch 또는 TensorFlow |
대용량 데이터 분석 | CSV, Parquet, DB | 데이터 전처리, 모델 입력 | pandas + Dask 또는 Spark |
재현 가능한 파이프라인 분석 | 다양한 파일 + DB | 반복 가능한 분석 파이프라인 | Kedro + scikit-learn 또는 PyTorch |
분산 딥러닝 | 이미지, 텍스트 | 대규모 딥러닝 | PyTorch + Dask 또는 Spark |
자동화된 데이터 분석 | 파일 + API + DB | 주기적 실행, 결과 리포트 | Kedro + Prefect 또는 Airflow |
복합 데이터 분석 | CSV, API, DB, 웹 크롤링 | 통합 분석, 예측, 보고서 자동화 | Kedro + Dask/Spark + PyTorch + Prefect |
프로젝트 발전 단계
단계 | 특징 | 프레임워크 |
단일 데이터 분석 | CSV, Excel로 데이터 분석 | pandas, scikit-learn |
반복 가능한 분석 | 데이터 파이프라인화 → 재현성 확보 | Kedro, Metaflow |
복합 데이터 분석 | 다양한 데이터 소스 통합, 복잡한 전처리 | Kedro + scikit-learn/PyTorch |
자동화 및 확장 | 주기적 실행, 모델 관리, 대규모 데이터 처리 | Kedro + Prefect/Airflow + Spark/Dask |
재현 가능한 파이프라인에서 복합 데이터 분석으로의 확장
재현 가능한 파이프라인은 복합데이터 분석으로 발전하는데 자연스러운 단계를 제공합니다.
여기서 Kedor의 강점은 다음과 같습니다.
- node와 pipeline을 추가하는 방식으로 확장 가능
- 복잡성이 증가해도 기존 코드를 수정할 필요 없음
- 재현성과 확장성 이 뛰어남
결론적으로 대규모 프로젝트를 앞두고 설계를 시작한다면 우선적으로 Kedro를 차용하여 이 파이프라인 안에서 분석을 시작하는 것이 확장성 측면에서 이점이다. 하지만 러닝커브가 높을 수 있으니 팀원들의 역량을 고려해야 한다.
정리하자면
데이터 사이언스 프로젝트는 단순한 분석에서 재현가능한 파이프라인, 그리고 복합 데이터 분석과 자동화로 발전합니다. 프로젝트의 목적과 복잡성에 따라 적절한 프레임워크 조합을 선택하는 것이 생산성과 유지보수성을 결정 짓습니다. 이번 프로젝트에서 Kedro를 통해 구조화된 파이프라인을 구축하고, 향후 PyTorch 및 Prefect 등을 통합하는 방향이 적절합니다.