본문 바로가기
Amazon Web Serivce 자격증 쉽게 공부하기/[C03]AWS Solutions Architect Asso 기본

SAA-C03 기본 #16, Opensearch & EMR & Glue

by 네트워크 엔지니어 환영 2024. 1. 28.
반응형

Amazon OpenSearch (ElasticSearch의 후속 서비스)

  • 로그 분석, 실시간 애플리케이션 모니터링 등의 사례에 적용하기 위한 완전한 오픈 소스 검색 및 분석 엔진
  • 데이터베이스의 기본키나 인덱스로만 데이터를 처리하는 DynamoDB와는 다르게 부분적으로 일치하는 필드를 포함 모든 필드 검색 기능
  • 애플리케이션에서 검색 기능 제공 시 또는 다른 데이터베이스를 보완하는데 사용
  • 서버리스가 아닌 인스턴스의 클러스터가 필요
  • SQL 지원이 아닌 자체처리 언어
  • Kinesis Data Firehose, AWS IoT, CloudWatch Logs, 사용자 지정 애플리케이션의 데이터 주입

 

Amazon EMR (Elastic MapReduce)

  • AWS에서 빅데이터 작업을 위한 하둡 클러스터 생성에 사용되며 방대한 데이터 분석/처리
  • 하둡 클러스터는 프로비저닝해야하며, EC2 인스턴스의 클러스터로 구성
  • 사용 사례 : 데이터 처리와 기계 학습, 웹인덱싱, 빅데이터 작업 시 Hadoop, Spark, HBase, Presto, Flink 등의 빅데이터 관련 기술과 같이 사용
  • 마스터노드 : 클러스터 관리, 다른 모든 노드의 상태 조정 (장기실행)
  • 코어노드 : 태스크 실행, 데이터 저장 (장기실행)
  • 태스크 노드 : 태스크만 실행 (보통 스팟 인스턴스를 사용, 선택 사항)

 

AWS Glue

  • 추출과 변환 로드(ETL) 서비스 관리, 분석을 위해 데이터 준비하고 변환하는데 유용한 완전 서버리스 서비스
  • 예시 : S3 버킷, Amazon RDS - (Extract) -> Glue ETL - (Load) -> Redshift(DataWarehouse)
  • Glue Data Catalog: Glue 데이터 크롤러를 실행하여 Amazon S3, RDS, DynamoDB, 호환 가능 온프레미스 JDBC에 연결하여 데이터베이스의 테이블, 열, 데이터 형식 등의 모든 메타 데이터를 기록
  • Amazo Athena, Redshift spectrum, EMR는 데이터와 스키마 검색 시 백그라운드에서 AWS Glue Data Catalog 활용
  • Glue 작업 북마크 : 새로운 ETL 작업을 실행할 때 이전 데이터의 재처리 방지
  • Glue Elastic Views : SQL을 사용해 여러 데이터 스토어의 데이터를 결합/복제하여 가상 테이블인 "뷰" 생성 가능
  • Glue DataBrew : 사전 빌드된 변환을 사용해 데이터를 정리하고 정규화
  • Glue Studio : Glue에서 ETL 작업을 생성, 실행 및 모니터링하는 GUI

댓글