728x90

클라우드 컴퓨팅 시스템이란?
- 인터넷을 통해 다양한 IT 리소스와 서비스를 제공하는 플랫폼
- 대규모 데이터 센터에서 운영되는 컴퓨터, 스토리지, 네트워킹 등의 하드웨어 및 소프트웨어 리소스를 가상화하고 인터넷을 통해 사용자에게 제공하는 서비스
- 대표적으로는 Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform (GCP) 등이 있음
- 장점
- 탄력성과 확장성 : 컴퓨팅 리소스의 확장, 축소 등 변동에 대한 반영 빠름
- 경제적 : 사용한 만큼에 대한 요금이 부과되는 형태, 초기 비용관리 쉬움
- 글로벌 엑세스 : 전세계 어디에서나 안정적인 서비스 엑세스 가능
- 단점
- 보안 우려 : 데이터가 외부에 저장되기 때문에 올바른 보안 조치가 필요
- 인터넷 연결 필요 : 인터넷을 기반으로 제공되는 서비스이기 때문에 안정적인 인터넷 연결이 필요
- 비용 관리 복잡 : 초기 구축 비용은 절약되지만 서비스 사용량 등에 따라서는 구축하는 것 보다 비쌀 수 있음
Azure Data Factory란?
- 복잡한 데이터 처리 작업을 간편하게 해주는 클라우드 기반의 통합 서비스
- 다양한 데이터 소스간의 데이터 추출, 변환, 로드(ETL) 과정을 관리 가능
- ETL및 스케줄링, 모니터링 및 관리, 실시간 데이터 처리 등의 기능을 제공
Azure Data Factory 사용 방법
1. 리소스 그룹 만들기
- 리소스 그룹은 관련된 Azure 리소스를 함께 관리, 배포 및 모니터링할 수 있는 컨테이너
- 리소스 그룹의 범위 지정, 관리, 엑세스 제어 및 권한 관리 등의 기능을 수행

- Azure 포털에서 리소스 만들기를 클릭
- Azure 포털 주소 : https://portal.azure.com/#home
Microsoft Azure
portal.azure.com


- Market Place에서 리소스 그룹 검색 후 만들기 클릭
- 가끔 한국어로 검색하면 안나오는 경우가 있으므로 한국어로 시도해보고 안나오면 영어로 검색

- 리소스 그룹을 만들고자하는 구독 플랜을 선택하고 리소스 그룹의 이름을 지정
- 리소스 그룹 등 이름을 지어야 하는 경우 MS에서 제안하고 있는 명명 규칙을 참고하면 좋음
- 이를 참고하면 rg-로 시작하도록 리소스 그룹을 생성
- 참고 링크 : https://learn.microsoft.com/ko-kr/azure/cloud-adoption-framework/ready/azure-best-practices/resource-naming

- 영역
- Microsoft Azure의 데이터 센터가 위치한 지역을 말함
- 사용자나 조직이 위치한 지역과 가까운 곳의 데이터 센터를 선택하는 것이 일반적
- 한국의 경우, Korea Central을 선택
2. Data Factory만들기


- 위에서 만든 리소스 그룹내로 들어가서 만들기 클릭
- Market Place에서 Data Factory 검색 후 만들기 클릭


- 구독 플랜 및 Data Factory를 위치시킬 리소스 그룹 선택
- 인스턴스 정보의 이름은 명명규칙에 따라 adf-로 시작되도록 설정
- 지역의 경우 리소스 그룹의 영역 설정과 일치하도록 Korea Central로 설정
- 개인적으로 Git 구성, 네트워킹, 고급은 기본 설정으로 두고 태그만 분류를 위해 과제명으로 설정
- 참고) 네트워킹 설정의 경우
- 퍼블릭 엔드포인트
- 외부에서 접근 가능한 엔드포인트
- 인터넷을 통해 서비스나 리소스에 직접 연결가능
- 프라이빗 엔드포인트
- Azure 내부 네트워크에서만 액세스 가능한 엔드포인트
- 보안에 대한 강점이 있음
- 퍼블릭 엔드포인트

- 만들어진 Data factory에 들어가면 기본 정보들을 확인 가능
- 태그, 네트워킹 등은 Data Factory가 만들어진 이후에도 해당 페이지 좌측 메뉴를 통해 변경 가능

- 하단에는 현재 진행중인 부분이 있다면 현황 파악을 할 수 있는 대시보드가 있음
- 제 경우, trigger를 걸어서 1시간에 한 번씩 실행되게 해 놓아서 일정한 그래프가 그려져 있어요

- Studio시작하기를 눌러 실제 Data Factory를 구성할 수 있는 곳으로 들어갈 수 있음
- Azure Data factory에서는 크게 4종류의 작업이 가능
- 파이프라인 : 데이터 추출, 변환, 로드하는 작업을 조직하고 실행하는 파이프라인을 실행. 트리거 기능으로 일정에 따라 실행 가능
- Power Query : 정제, 형식변경, 다른 데이터 소스로 변환하며 데이터를 가져오고 변환되는 데 사용
- 데이터 흐름 : Power Query와 유사한 기능이나 더 복잡한 변환 및 조작 가능
- 데이터 세트 : 데이터 소스에서 데이터를 읽거나 쓰는데 사용. 파이프라인 또는 데이터 프름의 입력 및 출력으로 사용

- 좌측 메뉴 중 두번째 연필(만든 이)를 클릭하면 팩토리 내 만들어진 리소스들을 파악 가능
- 각 개수가 나오고, 하위 객체들을 클릭하며 어떻게 생성되었는지 확인 가능

- 세번째에 있는 나침반(모니터)을 클릭하면 현재 진행중인 파이프라인, 트리거에 대한 정보를 확인 가능
- 파이프라인 또는 트리거가 설정한 시간에 실행이 되었는지, 성공은 했는지, 얼마나 걸렸는지 등에 대한 정보를 확인 가능
기본적으로 Data Factory를 어떻게 만드는지, 어떤 것들을 만들고 확인할 수 있는지에 대해서 적어보았습니다.
Data Factory와 Machine learning Studio를 같이 활용하여 개발한 코드를 정해진 시간에 정기적으로 돌아가도록 설정할 수 있는데요.
앞으로 해당 부분에 대해서 정리해가며 글을 작성해보려고 합니다.
감사합니다!
728x90