본문 바로가기
Amazon Web Serivce 자격증 쉽게 공부하기/[C03]AWS Solutions Architect Asso 기본

SAA-C03 기본 #15, Athena & Redshift

by 네트워크 엔지니어 환영 2024. 1. 24.
반응형

Athena

  • Amazon S3 버킷에 저장된 데이터 분석에 사용하는 서버리스 쿼리 서비스
  • 사용자가 S3 버킷에 데이터 로드하면 Athena 서비스를 사용해 데이터 이름 없이 처리하고 분석할 수 있음
  • CSV, JSON, ORC, Auro, Parquet 등 다양한 형식 지원
  • Amazon Quicksight 도구와 함께 사용하여 보고서와 대시보드 생성
  • Use cases : 임시 쿼리 수행. 비즈니스 인텔리전스 분석 및 보고, 로그 쿼리 및 분석 (VPC 흐름로그, 로드밸런서로그, Cloud Trail 추적 등)
  • 성능 향상
    • Less scan 유형의 데이터 사용 : Apache Parquer 또는 ORC추천, Gthe(적재작업)는 CSV와 Parquet 간데이터 변환유용
    • 데이터 압축 : bzip2. gzip, lz4, snapp4, •••
    • 데이터 세트 분할 : S3 버킷에 있는 전체 경도를 슬래시로 분할 후 각 슬래시에 다른 열 이름을 붙여 열별로 특정 값 저장
    • 오버헤드 최소화를 위한 큰 파일 (128MB 이상) 사용
  • 연합 쿼리 : 데이터 원본 커넥터를 실행하는 람다함수를 통해 Athena에서 S3뿐 아니라 모든 온프레이스 DB쿼리하거나 쿼리조인하고 결과는 S3 버킷 저장 가능

 

Redshift

  • AWS 데이터 웨어하우스 서비스
  • 데이터베이스, 분석엔진, PostgreSQL기술 기반, 온라인 트랜잭션 처리(OLTP)에는 사용안함
  • 온라인 분석 처리 (OLAP) 유형의 데이터베이스로 분석과 데이터 웨어하우징에 사용
  • 행기반이 아닌 열기반 데이터 스토리지 사용, 병렬 쿼리 엔진
  • Amazon Quicksight, Tableau 같은 BI도구도 Redshift와 통합 가능
  • Amazon S3의 모든 데이터를 로드한 후 인덱스가 있어 더 빠른 쿼리와 조인/통합이 가능하므로 집중적인 데이터 웨어하우스라면 Athena보다 적합
  • 리더 노드 : 쿼리 계획, 결과 집계
  • 컴퓨팅 노드 : 쿼리를 실행하여 결과를 리더 노드에 전송
  • Redshift 클러스터는 노드 크기를 미리 프로비저닝하며 다중 AZ 모드가 없고, 클러스터가 한 개의 가용 영역에 존재
  • 재해 복구 : 스냅샷을 이용하여 클러스터의 지정 시간 백업하면 Amazon S3 내부에 증분 백업되고, 다른 AWS 리전에 자동 복사 구성 가능
  • 데이터 주입 방법
    • Amazon Kinesis Data Firehose 사용
    • S3에 데이터 로드 후 Redshift에서 COPY 명령 실행 : ①인터넷 통해 (향상된 VPC 라우팅 없이) ②VPC통해(향상된 VPC 라우팅으로)
    • JDBC 드라이버 사용
  • Redshift spectrum 기능: S3에 있는 데이터에 쿼리를 실행할 Redshift spectrum 노드에 쿼리가 제출되어 S3에서 Redshift로 데이터 로드 안함

댓글