머신 러닝(Machine Learning)
> 데이터를 이해하는 알고리즘의 과학이자 애플리케이션
머신 러닝의 세 가지 주요 학습
1. 지도학습으로 미래를 예측
2. 강화학습으로 반응형 문제를 해결
3. 비지도 학습으로 숨겨진 구조를 발견
MLOps
DevOps : 개발과 운영을 따로 나누지 않고 개발의 생산성과 운영의 안정성을 최적화하기 위한 문화이자 방법론
DevOps를 머신 러닝(Machine Learning) 시스템에 적용한 것 : MLOps
머신 러닝을 도입한 데이터 처리 파이프라인
1. 데이터 분석
- 데이터 분석(EDA, Exploratory Data Analysis) 을 수행, 데이터 스키마 및 특성을 이해
2. 데이터 준비 (추출 및 정제)
- 데이터 소스에서 관련 데이터를 추출(extract) 및 정제, 변환(transform), 집합(aggregate), 중복 제거 등의 과정이 포함
3. 모델 학습 및 튜닝
- 다양한 알고리즘을 구현하고, 하이퍼 파라미터를 조정(튜닝)하고 적용하여 학습된 모델을 결과로 도출
4. 모델 평가 및 검증
- 모델을 평가하여 모델의 정확도 수치를 확인, 모델 성능을 검증하여, 배포에 적합한 수준인지를 검증
5. 모델 제공
- CI/CD 툴을 이용하여, 프로덕션 수준에서 이용할 수 있도록 파이프라인을 자동화
ML 생애 주기
MLOps의 전망
머신러닝 시스템을 적용하고 운영하기 위해서는 단순히 좋은 머신러닝 모델만으로 가능한 것이 아니라 모델을 운영하기 위한 기반 데이터와 인프라를 포함한 모든 시스템이 유기적으로 돌아가야 함
DevOps와의 비교
Stage DevOps MLOps
Test | 애플리케이션 모듈 간의 통합 테스트 | 데이터 검증, 학습된 모델 품질 평가, 모델 검증 |
Deployment | 프로비저닝 및 애플리케이션 준비 | 학습된 ML 모델 배포 + 새로운 모델이 재학습 될 수 있는 파이프라인 구성 |
Operate | 애플리케이션 트래픽, 사용자 등의 모니터링 | 데이터 요약 통계 모니터링 |
지속적 통합(CI)와 지속적 배포(CD)의 정의가 다음과 같이 다르게 해석
DevOps MLOps
통합의 대상 | 다양한 코드가 하나의 artifact로 결합되는 통합 | 데이터, 스키마, 모델 테스트를 결합하는 통합 |
배포의 대상 | 단일 소프트웨어 패키지의 배포 | ML 파이프라인 전체를 배포 |
MLOps에는 모델을 꾸준히 학습시키고 평가하는 단계를 일컬어 CT라고 함
'DevOps BootCamp > 데이터베이스' 카테고리의 다른 글
Mariadb (0) | 2024.04.29 |
---|---|
ETL과 ELT (0) | 2023.03.29 |
정형 데이터와 비정형 데이터 (0) | 2023.03.29 |
데이터 파이프라인 (0) | 2023.03.29 |
수평 확장된 데이터베이스와 중복 처리 (Advanced) (0) | 2023.03.29 |