フェデレーテッドクエリの概念は新しいものではありません。FacebookのPrestoDBは、2013年に分散構造化クエリ言語(SQL)クエリエンジンのアイデアを普及させました。
その後、AWS、Google、Microsoftなど、多くの企業が製品内で分散クエリエンジンモデルの採用を加速させてきました。例えば、AWSはPrestoのコードベースを元にAmazon Athenaを開発し、GoogleのBigQueryはCloud SQLに基づいています。
組織は、リレーショナルデータベース(MySQL、SQL Server、Postgres)やオブジェクトストレージシステム(S3、HDFS)など、複数のデータベースやストレージシステムにデータを保存し、大量のデータを低コストで保存しています。しかし、組織はしばしば、適切なタイミングで適切なデータに迅速にアクセスできるという課題に直面しています。
Presto は、SQL 経由でリレーショナル データベースと非リレーショナル データベース、オブジェクト ストア (または総称して異なるソース) のクエリを可能にすることでこれを簡素化し、BI ツールや組織独自のコードからのデータへのアクセスを容易にしました。
クエリ フェデレーションの革新的な点は、1 回のクエリで複数のソースからのデータに高速にアクセスできるようにすることです。これは、さまざまなソースからのデータを統合することが、以前は長くて面倒なプロセスだったためです。データを共有形式にまとめるには、抽出、変換、ロード (ETL) プロセスが必要です。
しかし、コミュニティの専門家は、ETL ツールは、ほぼリアルタイムまたはオンデマンドのデータ アクセスを求めている場合、通常は適切ではないと考えています。これらのツールは、ユーザーの介入なしにコマンドが読み取られ、バッチとして実行されるバッチ モードの作業用に設計されています。ETL は、確立された、変化の遅いデータに適しています。また、ETL は、データ分析やビジネス ユーザーが直接アクセスすることはできません。
ユーザーが個別のデータベースにログインしたり、認証情報を記憶する必要はありません。すべてがフェデレーテッドクエリサービス内で集中管理されているため、すべてのデータソースやIT環境にわたるデータへの統一されたアクセスが可能になります。
すべてがフェデレーション クエリ サービス内で一元化されているため、ユーザーは資格情報を覚えたり、個々のデータベースにログインしたりする必要はありません。これにより、すべてのソース タイプと IT 環境にわたるデータへの統合されたアクセスが可能になります。
従来の ETL ツールはデータベース言語を理解している開発者やコーダー向けに設計されていたため、フェデレーション クエリを使用すると、データ サイエンティストやアナリストがデータを分析しやすくなります。
フェデレーション クエリは通常、実行前に最適化されるため、数百のユーザー クエリをリアルタイムで負荷分散し、重複排除することができます。これにより、高度な分析やビジネス インテリジェンス ツールを使用する際のスループットが向上し、コストが削減され、データに基づく意思決定が促進されます。
最大の利点は、ユーザーが各データベースの特定のクエリやデータ言語を知る必要がないことです。フェデレーション クエリでの自動データ定義言語 (DDL) 変換により、誰でもすべてのデータ ソースに対してクエリを実行できます。
デジタルトランスフォーメーションに関する我々の詳細な調査によると、ITおよびデータリーダーの90%以上がマルチクラウドまたはハイブリッドクラウドアーキテクチャの利用を計画しています。そのため、アプリケーションやデータがAWS、Azure、GCP、IBM、またはプライベートの仮想化環境など、単一のクラウドプラットフォームに統合される可能性は非常に低いと言えます。
これは、データがますます複数のデータソースに分散され、管理が難しくなることを意味します。データレイクは望ましい解決策の一つですが、企業のすべてのデータをレイクに統合し、継続的に更新することはコストがかかる場合があります。
Amazon S3 に保存されているデータを分析する最も速い方法をお探しですか?
ユーザーは、S3 バケットに保存されているデータに Athena を指定してフィールドを識別し、クエリを実行するだけで、数秒で結果が返されます。
Amazon の新しい Athena プラットフォームは、複数のリレーショナル、非リレーショナル、オブジェクト、カスタム データ ソースに保存されているデータに対して、SQL クエリをすばやく簡単に実行できるフェデレーション クエリを使用します。AWS Lambda で実行されるデータ ソース コネクタを使用すると、データ サイエンティスト、エンジニア、アナリストは、オンプレミスまたはクラウドで実行されている複数のソースからのデータを単一の SQL クエリで分析できます。
Trianz は、BI を簡素化し、データソース間の分析を容易にするために、Athena プラットフォーム上にAthena Federated Query (AFQ) 拡張機能を構築しました。これらの拡張機能は通常、S3 からデータをスキャンし、Lambda ベースのコネクタを実行して、オンプレミスの Teradata、Amazon Redshift、Google BigQuery、SAP HANA からデータを読み取ります。
Trianz と AWS AFQ コネクタの完全なエコシステムにより、データを移行または統合することなく、ハイブリッド/マルチクラウド分析と視覚化を作成できます。AFQ コネクタの組み合わせライブラリは、企業内のあらゆるソースや、Azure や GCP などの他のクラウド プラットフォームからデータを取得できます。
当社のAFQコネクタは、AmazonやFortune 1000企業の大規模で複雑なデータ組織によってテストされ、試されています。Athena の機能は、技術系ユーザーと非技術系ユーザーがシンプルなクエリでリッチで強力なビジュアライゼーションを生成できるようにし、長期的には時間とリソースを節約することです。