Cloud

[Azure] Data Factory란? 기본 사용 방법

공부하는 sum 2024. 3. 3. 12:02
728x90

클라우드 컴퓨팅 시스템이란?
  • 인터넷을 통해 다양한 IT 리소스와 서비스를 제공하는 플랫폼
  • 대규모 데이터 센터에서 운영되는 컴퓨터, 스토리지, 네트워킹 등의 하드웨어 및 소프트웨어 리소스를 가상화하고 인터넷을 통해 사용자에게 제공하는 서비스
  • 대표적으로는 Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform (GCP) 등이 있음
  • 장점
    • 탄력성과 확장성 : 컴퓨팅 리소스의 확장, 축소 등 변동에 대한 반영 빠름
    • 경제적 : 사용한 만큼에 대한 요금이 부과되는 형태, 초기 비용관리 쉬움
    • 글로벌 엑세스 : 전세계 어디에서나 안정적인 서비스 엑세스 가능
  • 단점
    • 보안 우려 : 데이터가 외부에 저장되기 때문에 올바른 보안 조치가 필요
    • 인터넷 연결 필요 : 인터넷을 기반으로 제공되는 서비스이기 때문에 안정적인 인터넷 연결이 필요
    • 비용 관리 복잡 : 초기 구축 비용은 절약되지만 서비스 사용량 등에 따라서는 구축하는 것 보다 비쌀 수 있음

 

Azure Data Factory란?
  • 복잡한 데이터 처리 작업을 간편하게 해주는 클라우드 기반의 통합 서비스
  • 다양한 데이터 소스간의 데이터 추출, 변환, 로드(ETL) 과정을 관리 가능
  • ETL및 스케줄링, 모니터링 및 관리, 실시간 데이터 처리 등의 기능을 제공

 

Azure Data Factory 사용 방법

 

1. 리소스 그룹 만들기

  • 리소스 그룹은 관련된 Azure 리소스를 함께 관리, 배포 및 모니터링할 수 있는 컨테이너
    • 리소스 그룹의 범위 지정, 관리, 엑세스 제어 및 권한 관리 등의 기능을 수행

 

 

Microsoft Azure

 

portal.azure.com

 

 

  • Market Place에서 리소스 그룹 검색 후 만들기 클릭
  • 가끔 한국어로 검색하면 안나오는 경우가 있으므로 한국어로 시도해보고 안나오면 영어로 검색

 

  • 영역
    • Microsoft Azure의 데이터 센터가 위치한 지역을 말함
    • 사용자나 조직이 위치한 지역과 가까운 곳의 데이터 센터를 선택하는 것이 일반적
    • 한국의 경우, Korea Central을 선택

 

2. Data Factory만들기

  • 위에서 만든 리소스 그룹내로 들어가서 만들기 클릭
  • Market Place에서 Data Factory 검색 후 만들기 클릭

  • 구독 플랜 및 Data Factory를 위치시킬 리소스 그룹 선택
  • 인스턴스 정보의 이름은 명명규칙에 따라 adf-로 시작되도록 설정
  • 지역의 경우 리소스 그룹의 영역 설정과 일치하도록 Korea Central로 설정
  • 개인적으로 Git 구성, 네트워킹, 고급은 기본 설정으로 두고 태그만 분류를 위해 과제명으로 설정

 

  • 참고) 네트워킹 설정의 경우
    • 퍼블릭 엔드포인트
      • 외부에서 접근 가능한 엔드포인트
      • 인터넷을 통해 서비스나 리소스에 직접 연결가능
    • 프라이빗 엔드포인트
      • Azure 내부 네트워크에서만 액세스 가능한 엔드포인트
      • 보안에 대한 강점이 있음

 

  • 만들어진 Data factory에 들어가면 기본 정보들을 확인 가능
  • 태그, 네트워킹 등은 Data Factory가 만들어진 이후에도 해당 페이지 좌측 메뉴를 통해 변경 가능

 

 

  • 하단에는 현재 진행중인 부분이 있다면 현황 파악을 할 수 있는 대시보드가 있음
  • 제 경우, trigger를 걸어서 1시간에 한 번씩 실행되게 해 놓아서 일정한 그래프가 그려져 있어요

 

  • Studio시작하기를 눌러 실제 Data Factory를 구성할 수 있는 곳으로 들어갈 수 있음
  • Azure Data factory에서는 크게 4종류의 작업이 가능
    • 파이프라인 : 데이터 추출, 변환, 로드하는 작업을 조직하고 실행하는 파이프라인을 실행. 트리거 기능으로 일정에 따라 실행 가능
    • Power Query : 정제, 형식변경, 다른 데이터 소스로 변환하며 데이터를 가져오고 변환되는 데 사용
    • 데이터 흐름 : Power Query와 유사한 기능이나 더 복잡한 변환 및 조작 가능
    • 데이터 세트 : 데이터 소스에서 데이터를 읽거나 쓰는데 사용. 파이프라인 또는 데이터 프름의 입력 및 출력으로 사용

 

  • 좌측 메뉴 중 두번째 연필(만든 이)를 클릭하면 팩토리 내 만들어진 리소스들을 파악 가능
  • 각 개수가 나오고, 하위 객체들을 클릭하며 어떻게 생성되었는지 확인 가능

 

  • 세번째에 있는 나침반(모니터)을 클릭하면 현재 진행중인 파이프라인, 트리거에 대한 정보를 확인 가능
  • 파이프라인 또는 트리거가 설정한 시간에 실행이 되었는지, 성공은 했는지, 얼마나 걸렸는지 등에 대한 정보를 확인 가능

 


기본적으로 Data Factory를 어떻게 만드는지, 어떤 것들을 만들고 확인할 수 있는지에 대해서 적어보았습니다. 

Data Factory와 Machine learning Studio를 같이 활용하여 개발한 코드를 정해진 시간에 정기적으로 돌아가도록 설정할 수 있는데요.

앞으로 해당 부분에 대해서 정리해가며 글을 작성해보려고 합니다. 

감사합니다!

728x90