반응형
Athena
- Amazon S3 버킷에 저장된 데이터 분석에 사용하는 서버리스 쿼리 서비스
- 사용자가 S3 버킷에 데이터 로드하면 Athena 서비스를 사용해 데이터 이름 없이 처리하고 분석할 수 있음
- CSV, JSON, ORC, Auro, Parquet 등 다양한 형식 지원
- Amazon Quicksight 도구와 함께 사용하여 보고서와 대시보드 생성
- Use cases : 임시 쿼리 수행. 비즈니스 인텔리전스 분석 및 보고, 로그 쿼리 및 분석 (VPC 흐름로그, 로드밸런서로그, Cloud Trail 추적 등)
- 성능 향상
- Less scan 유형의 데이터 사용 : Apache Parquer 또는 ORC추천, Gthe(적재작업)는 CSV와 Parquet 간데이터 변환유용
- 데이터 압축 : bzip2. gzip, lz4, snapp4, •••
- 데이터 세트 분할 : S3 버킷에 있는 전체 경도를 슬래시로 분할 후 각 슬래시에 다른 열 이름을 붙여 열별로 특정 값 저장
- 오버헤드 최소화를 위한 큰 파일 (128MB 이상) 사용
- 연합 쿼리 : 데이터 원본 커넥터를 실행하는 람다함수를 통해 Athena에서 S3뿐 아니라 모든 온프레이스 DB쿼리하거나 쿼리조인하고 결과는 S3 버킷 저장 가능
Redshift
- AWS 데이터 웨어하우스 서비스
- 데이터베이스, 분석엔진, PostgreSQL기술 기반, 온라인 트랜잭션 처리(OLTP)에는 사용안함
- 온라인 분석 처리 (OLAP) 유형의 데이터베이스로 분석과 데이터 웨어하우징에 사용
- 행기반이 아닌 열기반 데이터 스토리지 사용, 병렬 쿼리 엔진
- Amazon Quicksight, Tableau 같은 BI도구도 Redshift와 통합 가능
- Amazon S3의 모든 데이터를 로드한 후 인덱스가 있어 더 빠른 쿼리와 조인/통합이 가능하므로 집중적인 데이터 웨어하우스라면 Athena보다 적합
- 리더 노드 : 쿼리 계획, 결과 집계
- 컴퓨팅 노드 : 쿼리를 실행하여 결과를 리더 노드에 전송
- Redshift 클러스터는 노드 크기를 미리 프로비저닝하며 다중 AZ 모드가 없고, 클러스터가 한 개의 가용 영역에 존재
- 재해 복구 : 스냅샷을 이용하여 클러스터의 지정 시간 백업하면 Amazon S3 내부에 증분 백업되고, 다른 AWS 리전에 자동 복사 구성 가능
- 데이터 주입 방법
- Amazon Kinesis Data Firehose 사용
- S3에 데이터 로드 후 Redshift에서 COPY 명령 실행 : ①인터넷 통해 (향상된 VPC 라우팅 없이) ②VPC통해(향상된 VPC 라우팅으로)
- JDBC 드라이버 사용
- Redshift spectrum 기능: S3에 있는 데이터에 쿼리를 실행할 Redshift spectrum 노드에 쿼리가 제출되어 S3에서 Redshift로 데이터 로드 안함
'Amazon Web Serivce 자격증 쉽게 공부하기 > [C03]AWS Solutions Architect Asso 기본' 카테고리의 다른 글
SAA-C03 기본 #17, Quicksight & Lake Formation (0) | 2024.01.30 |
---|---|
SAA-C03 기본 #16, Opensearch & EMR & Glue (0) | 2024.01.28 |
SAA-C03 기본 #14, ECS & EKS (0) | 2023.12.16 |
SAA-C03 기본 #12, Kinesis & Amazon MQ (0) | 2023.12.14 |
SAA-C03 기본 #11, SQS & SNS (0) | 2023.12.10 |
댓글