SAA-C03 기본 #16, Opensearch & EMR & Glue

네트워크 엔지니어 환영 2024. 1. 28. 17:51

AWS에서 빅데이터 작업을 위한 하둡 클러스터 생성에 사용되며 방대한 데이터 분석/처리
하둡 클러스터는 프로비저닝해야하며, EC2 인스턴스의 클러스터로 구성
사용 사례 : 데이터 처리와 기계 학습, 웹인덱싱, 빅데이터 작업 시 Hadoop, Spark, HBase, Presto, Flink 등의 빅데이터 관련 기술과 같이 사용
마스터노드 : 클러스터 관리, 다른 모든 노드의 상태 조정 (장기실행)
코어노드 : 태스크 실행, 데이터 저장 (장기실행)
태스크 노드 : 태스크만 실행 (보통 스팟 인스턴스를 사용, 선택 사항)

추출과 변환 로드(ETL) 서비스 관리, 분석을 위해 데이터 준비하고 변환하는데 유용한 완전 서버리스 서비스
예시 : S3 버킷, Amazon RDS - (Extract) -> Glue ETL - (Load) -> Redshift(DataWarehouse)
Glue Data Catalog: Glue 데이터 크롤러를 실행하여 Amazon S3, RDS, DynamoDB, 호환 가능 온프레미스 JDBC에 연결하여 데이터베이스의 테이블, 열, 데이터 형식 등의 모든 메타 데이터를 기록
Amazo Athena, Redshift spectrum, EMR는 데이터와 스키마 검색 시 백그라운드에서 AWS Glue Data Catalog 활용
Glue 작업 북마크 : 새로운 ETL 작업을 실행할 때 이전 데이터의 재처리 방지
Glue Elastic Views : SQL을 사용해 여러 데이터 스토어의 데이터를 결합/복제하여 가상 테이블인 "뷰" 생성 가능
Glue DataBrew : 사전 빌드된 변환을 사용해 데이터를 정리하고 정규화
Glue Studio : Glue에서 ETL 작업을 생성, 실행 및 모니터링하는 GUI