AWS Glue 대 Amazon EMR

어떤 플랫폼이 당신에게 맞을까요?

AWS는 세계에서 가장 큰 퍼블릭 및 프라이빗 클라우드 데이터 센터 공급업체입니다. AWS는 빅데이터 처리 포트폴리오의 일부로 Glue와 Amazon EMR을 개발했습니다. AWS Glue는 데이터 과학자가 Amazon S3를 통해 데이터를 조작하고 이동하는 데 도움이 되는 추출, 변환, 로드(ETL) 도구입니다.

Amazon EMR은 Amazon Elastic MapReduce의 약자로, 빅데이터 처리, 실시간 데이터 스트림, SQL 쿼리, 머신 러닝 플랫폼입니다. EMR은 Apache Spark 클러스터를 비롯한 빅데이터 엔진을 실행하고 확장하는 데 사용할 수 있습니다.

두 도구 모두 ETL 처리 기능을 제공하지만, 어떤 도구를 선택하느냐는 현재 인프라에 따라 크게 달라집니다. AWS Glue와 EMR을 살펴보고 두 플랫폼을 병렬로 사용할지, 아니면 하나를 선택하는 것이 비즈니스에 적합한지 결정해 보겠습니다.


AWS Glue Graphic이란 무엇입니까?

AWS Glue란 무엇인가요?


AWS Glue 는 AWS 클라우드에서 제공되는 서버리스 데이터 통합 서비스입니다. 이 플랫폼은 데이터 분석가가 다양한 소스에서 데이터를 발견하고, 데이터를 여러 형식과 스키마로 준비하고, 데이터 매핑을 사용하여 데이터 세트를 결합하도록 돕는 것을 목표로 합니다. AWS Glue는 데이터베이스, 데이터 레이크, 데이터 웨어하우스 소스와 같은 다양한 데이터 스토어와 함께 작동합니다.

비기술 사용자를 위한 시각화된 인터페이스와 기술 사용자를 위한 더욱 강력한 코드 기반 인터페이스 덕분에 ETL 워크플로 진입 장벽이 낮아졌습니다. AWS Glue의 모든 메타데이터는 AWS Glue Data Catalog에 저장되므로 모든 사용자가 관련 데이터 세트를 찾아 액세스할 수 있습니다.


Amazon EMR이란?


Amazon Elastic MapReduce(EMR) 는 빅데이터 플랫폼입니다. Apache Spark 및 기타 분석 엔진을 통해 인공 지능 및 머신 러닝 워크로드에 대한 실시간 데이터 스트리밍을 지원합니다. 이는 소스에서 데이터를 추출하여 대상에 전달하는 확장 가능한 데이터 파이프라인을 통해 가능합니다. EMR의 대규모 예측 분석 및 통계 모델도 추세와 상관 관계를 파악하는 데 사용할 수 있습니다.

EMR의 이점에는 온프레미스의 절반 비용으로 페타바이트 수준의 확장성과 분석 워크로드에 대한 최대 2배 빠른 인사이트 시간이 포함됩니다. EMR Studio를 사용하여 데이터 파이프라인을 구축하고, 데이터 흐름을 시각화하고, SQL 쿼리를 실행할 수 있습니다.

Amazon EMR 그래픽이란?

AWS Glue와 EMR 비교


AWS Glue와 EMR은 모두 ETL 프로세스와 워크플로를 활성화할 수 있습니다. 그러나 두 서비스의 작동 방식에는 몇 가지 근본적인 차이점이 있습니다.

서버리스 대 관리형 서비스

AWS Glue는 인프라, 구성 옵션 및 설정을 처리하는 서버리스 데이터 통합 플랫폼입니다. 구조화되고 반구조화된 데이터 형식으로 작동하여 스키마 참조를 자동으로 유추할 수 있습니다.

Amazon EMR은 Amazon EC2 인스턴스나 클러스터와 같은 자체 구성 인프라를 위한 관리형 서비스 오버레이입니다. EMR은 전용 서버리스 옵션도 제공합니다. EMR은 Spark, Hive, HBase 및 Presto와 같은 Apache Hadoop 생태계 구성 요소를 지원하며 Amazon Athena, Amazon Redshift 및 기타 빅 데이터 분석 솔루션에 데이터를 저장합니다.

요약하자면, AWS Glue는 설정과 사용이 쉬운 확장 가능한 ETL 플랫폼입니다. 그러나 사용의 용이성에는 한계가 있어 인프라 요구 사항이 더 유연한 작업에 더 적합합니다. Amazon EMR은 Hadoop 구성 요소 호스팅 호환성, TensorFlow 머신 러닝 라이브러리, Presto SQL 쿼리를 포함하여 훨씬 더 풍부한 기능 세트를 제공합니다. Glue는 더 간단한 데이터 ETL 및 통합 워크플로에 적합한 반면, EMR은 보다 포괄적인 데이터 운영 관리 서비스 플랫폼입니다.

비용, 운영 비용 및 가격

대부분 클라우드 서비스와 마찬가지로, 박스에서 바로 사용할 수 있는 것이 많을수록 비용이 더 많이 듭니다. AWS Glue는 서버리스 플랫폼이므로 인프라 배포와 구성을 무시하고 ETL 워크플로에 집중할 수 있습니다.

EMR은 기존 데이터 소스를 활용하여 SQL 쿼리, 데이터 스트리밍 및 기타 ETL 프로세스를 용이하게 합니다. 이는 데이터 배포 및 구성 부담이 귀하에게 있으므로 비용이 절감됩니다. 이러한 낮은 비용은 EMR을 구성하고 배포하기 위해 직원에게 비용을 지불하고 각 AWS 서비스에 대한 추가 운영 비용을 상쇄함으로써 상쇄될 수 있습니다.

AWS 가격 계산기를 이용하여 의도한 사용 사례에 대한 각 서비스의 비용을 비교할 수 있습니다.

성능 제한

2022년 4월 현재 AWS Glue의 가장 큰 워커 유형은 G.2X입니다. 여기에는 32GB의 실행자 메모리가 상한으로 제공되므로, 고도로 압축된 파일을 압축 해제하면 "메모리 부족" 오류가 발생할 수 있습니다. 반면 EMR은 모든 AWS 인스턴스 유형을 사용할 수 있으므로 최대 24테비바이트(TiB)까지 훨씬 더 큰 RAM 할당이 가능합니다.


AWS Glue 및 EMR에 대한 사용 사례 및 시나리오


클라우드에서 대규모로 데이터를 저장하는 경우 분산 컴퓨팅 엔진, 클라우드 네이티브 데이터베이스 및 데이터 웨어하우스를 사용하는 것이 좋습니다. Amazon EMR과 AWS Glue는 조직에서 이를 달성하는 데 사용할 수 있는 두 가지 서비스입니다. Glue 작업 또는 EMR이 별도로 사용하는 데 더 적합할 수 있는 두 가지 시나리오를 살펴보겠습니다.

새로운 데이터 워크플로, 테스트 환경 또는 샌드박스


완전히 새로운 데이터 워크플로를 테스트하는 경우 AWS Glue가 더 나은 옵션일 수 있습니다. 인프라 구성 및 배포를 건너뛰고 데이터 워크플로만 실행할 수 있습니다. Glue의 PAYG(pay-as-you-go) 특성으로 인해 낭비되는 지출 위험이 거의 없습니다.

테스트 환경과 일회성 워크플로우를 위해 EMR 클러스터를 구성하면 노력이 늘어나지만 비즈니스에는 큰 이점이 없습니다. 유일한 문제는 Glue와 데이터 소스의 호환성입니다. 반면 EMR은 모든 AWS 인스턴스 유형을 사용하여 더 많은 유연성을 제공합니다.


빅데이터 처리 및 머신러닝


빅데이터 처리 또는 머신 러닝 워크로드의 경우, 유연성 덕분에 EMR이 더 나은 옵션일 수 있습니다. 머신 러닝, 딥 러닝, 데이터 ETL 및 실시간 스트리밍 분석을 안전하고 안정적으로 처리할 수 있습니다.

Glue는 추출, 변환 및 로드(ETL) 작업에 더 중점을 둡니다. 기계 학습 변환을 실행할 수 있지만 100초 동안 지속되는 처리 및 쓰기 창으로 인해 실시간 스트리밍 분석에 많은 제한이 있습니다. Glue 스키마 감지는 스트리밍 데이터 조인 작업도 비활성화하며, 기본 제공 Glue 변환 또는 Apache Spark Structured Streaming 변환만 지원됩니다.


AWS Glue 대 EMR 요약


AWS Glue와 Amazon EMR은 단순성과 유연성으로 차별화된 유사한 플랫폼입니다. AWS Glue는 클라우드에서 ETL 작업을 실행하는 빠르고 간편한 방법입니다. EMR은 기존 인프라를 사용하여 ML 워크로드에 대한 실시간 데이터 스트리밍과 함께 ETL을 지원하는 더욱 강력하고 기능이 풍부한 빅데이터 처리 솔루션입니다. EMR의 유연성에는 관리 부담이 따르지만 서버리스 기능을 피함으로써 Glue보다 비용이 적게 드는 경우가 많습니다.

궁극적으로 Amazon EMR은 소규모 및 대규모 데이터 작업에 적합한 반면 Glue는 훨씬 더 임시적이고 소규모 배치 작업에 적합합니다. 그러나 두 도구는 서로 다른 목적을 제공하기 때문에 Glue는 빠르게 구축하려는 임시 작업에 사용하고 EMR은 장기적이고 대규모 분산 데이터 처리 작업에 사용하게 될 수 있습니다.

ETL 마이그레이션에 대해 자세히 알고 싶으신가요?

Trianz가 레거시 데이터베이스와 기존 ETL 도구에서 AWS Glue로 마이그레이션하는 데 걸리는 시간을 최대 50%까지 단축하는 방법을 알아보세요.

AWS Glue에 대해 자세히 알아보기

Trianz의 차이점을 경험하세요

Trianz는 효과적인 전략과 실행의 우수성을 통해 디지털 혁신을 가능하게 합니다. 비즈니스 및 기술 리더와 협력하여 최상의 컨설팅, 기술 경험 및 실행 모델을 제공하여 의도한 비즈니스 성과를 달성하기 위한 운영 전략을 수립하고 실행하는 데 도움을 줍니다.

지식, 연구 및 관점에 힘입어, 우리는 고객이 인프라, 클라우드, 분석, 디지털 및 보안 패러다임을 활용하여 비즈니스 생태계를 혁신하고 우수한 성과를 달성할 수 있도록 지원합니다. 연락하거나 자세히 알아보려면 연락하세요 .

×

Get in Touch

Let us help you
transform and grow


By submitting your information, you agree to our revised  Privacy Statement.