연합 쿼리라는 개념은 새로운 것이 아닙니다. Facebook의 PrestoDB는 2013년에 분산 구조화 쿼리 언어(SQL) 쿼리 엔진이라는 아이디어를 대중화했습니다.
수년에 걸쳐 AWS, Google, Microsoft 및 업계의 많은 다른 회사들은 자사 제품 내에서 분산 쿼리 엔진 모델의 채택을 가속화했습니다. 예를 들어, AWS는 Presto 코드 기반 위에 Amazon Athena를 개발했고, Google의 BigQuery는 Cloud SQL을 기반으로 합니다.
조직은 관계형 데이터베이스(MySQL, SQL Server, Postgres) 및 개체 스토리지 시스템(S3, HDFS)과 같은 여러 데이터베이스 및 스토리지 시스템에 데이터를 저장하여 저렴한 가격으로 대량의 데이터를 저장합니다. 조직은 종종 적절한 시기에 적절한 데이터에 빠르게 액세스할 수 있는 과제에 직면합니다.
Presto는 SQL을 통해 관계형 및 비관계형 데이터베이스와 개체 저장소(또는 총칭하여 서로 다른 소스)에 대한 쿼리를 활성화하여 BI 도구에서 데이터에 쉽게 액세스하고 조직의 자체 코드에서도 데이터에 액세스할 수 있도록 함으로써 이를 간소화했습니다.
여러 소스의 데이터에 대한 액세스를 단일 쿼리에서 용이하게 하고, 그것도 너무 빠르게 하는 것이 Query Federation의 혁명적인 점입니다. 다양한 소스의 데이터를 통합하는 것은 예전에는 길고 지루한 프로세스였기 때문입니다. 데이터를 공유 형식으로 통합하려면 추출, 변환, 로드(ETL) 프로세스가 필요합니다.
하지만 ETL 도구는 일반적으로 커뮤니티 전문가가 거의 실시간 또는 주문형 데이터 액세스를 찾는 경우 적합하지 않은 것으로 간주됩니다. 이 도구는 사용자 개입 없이 일괄적으로 명령을 읽고 처리하는 일괄 작업 모드를 위해 설계되었습니다. ETL은 확립되고 느리게 변화하는 데이터에 더 적합했습니다. 또한 ETL은 데이터 분석 및 비즈니스 사용자가 직접 액세스할 수 없습니다.
페더레이션 쿼리의 이점은 다른 데이터베이스 솔루션의 기존 쿼리 접근 방식에 비해 엄청납니다. 다음은 몇 가지입니다.
모든 것이 페더레이션 쿼리 서비스 내에서 중앙 집중화되므로 사용자가 자격 증명을 기억하거나 개별 데이터베이스에 로그인할 필요가 없습니다. 이를 통해 모든 소스 유형과 IT 환경에서 데이터에 대한 통합된 액세스가 가능합니다.
연합 쿼리를 사용하면 데이터 과학자와 분석가가 데이터를 더 쉽게 분석할 수 있습니다. 기존의 ETL 도구는 데이터베이스 언어를 이해하는 개발자와 코더를 대상으로 했기 때문입니다.
연합 쿼리는 일반적으로 실행 전에 최적화되어 수백 개의 사용자 쿼리를 실시간으로 로드 밸런싱하고 중복을 제거할 수 있습니다. 이를 통해 고급 분석 또는 비즈니스 인텔리전스 도구를 사용할 때 처리량이 높아지고 비용이 절감되어 데이터 중심 의사 결정이 촉진됩니다.
가장 큰 장점은 사용자가 각 데이터베이스에 대한 특정 쿼리나 데이터 언어를 알 필요가 없다는 것입니다. 페더레이션 쿼리에서 자동화된 데이터 정의 언어(DDL) 변환을 통해 누구나 모든 데이터 소스에 대한 쿼리를 수행할 수 있습니다.
디지털 혁신에 대한 광범위한 연구에 따르면 IT 및 데이터 리더의 90% 이상이 멀티 클라우드 또는 하이브리드 클라우드 아키텍처를 사용할 계획입니다. 따라서 애플리케이션과 데이터는 AWS, Azure, GCP, IBM 또는 개인 가상화 환경이든 단일 클라우드 플랫폼에 통합될 가능성이 매우 낮습니다.
이는 데이터가 점점 더 여러 데이터 소스에 분산되고 관리하기 어려워질 것임을 의미합니다. 데이터 레이크는 바람직한 솔루션 중 하나이지만 모든 엔터프라이즈 데이터를 레이크에 통합하고 지속적으로 업데이트하는 것은 비용이 많이 들 수 있습니다.
Amazon S3에 저장된 데이터를 분석하는 가장 빠른 방법을 찾고 계신가요?
사용자는 S3 버킷에 저장된 데이터에 Athena를 가리키고, 필드를 식별하고, 쿼리를 실행하면 몇 초 내에 결과를 얻을 수 있습니다.
Amazon의 새로운 Athena 플랫폼은 여러 관계형, 비관계형, 객체 및 사용자 지정 데이터 소스에 저장된 데이터에 대한 빠르고 쉬운 SQL 쿼리를 가능하게 하는 페더레이션 쿼리를 사용합니다. AWS Lambda에서 실행되는 데이터 소스 커넥터를 사용하면 데이터 과학자, 엔지니어 및 분석가는 단일 SQL 쿼리로 온프레미스 또는 클라우드에서 실행되는 여러 소스의 데이터를 분석할 수 있습니다.
Trianz는 BI를 간소화하고 크로스 데이터 소스 분석을 용이하게 하기 위해 Athena 플랫폼 위에 Athena Federated Query(AFQ) 확장을 구축했습니다. 이러한 확장은 일반적으로 S3에서 데이터를 스캔하고 Lambda 기반 커넥터를 실행하여 온프레미스 Teradata, Amazon Redshift, Google BigQuery 및 SAP HANA에서 데이터를 읽습니다.
Trianz와 AWS AFQ 커넥터의 완벽한 생태계를 통해 데이터를 마이그레이션하거나 통합하지 않고도 하이브리드/멀티 클라우드 분석 및 시각화를 생성할 수 있습니다. AFQ 커넥터의 결합된 라이브러리는 Azure나 GCP와 같은 기업이나 다른 클라우드 플랫폼의 모든 소스에서 문자 그대로 데이터를 가져올 수 있습니다.
저희의 AFQ 커넥터는 Amazon과 Fortune 1000 기업의 대규모 복잡한 데이터 조직에서 테스트되고 시도되었습니다. Athena의 힘은 기술 및 비기술 사용자가 간단한 쿼리로 풍부하고 강력한 시각화를 생성할 수 있도록 하는 것이며, 장기적으로 시간과 리소스를 절약합니다.