Le concept de requêtes fédérées n'est pas nouveau. Facebook PrestoDB a popularisé l'idée des moteurs de requêtes SQL (langage de requête structuré distribué) en 2013.
Au fil des ans, AWS, Google, Microsoft et de nombreux autres acteurs du secteur ont accéléré l'adoption d'un modèle de moteur de requête distribué au sein de leurs produits. Par exemple, AWS a développé Amazon Athena sur la base de code Presto, tandis que BigQuery de Google est basé sur Cloud SQL.
Les organisations stockent leurs données dans plusieurs bases de données et systèmes de stockage, tels que les bases de données relationnelles (MySQL, SQL Server, Postgres) et les systèmes de stockage d'objets (S3, HDFS) pour stocker de grandes quantités de données à moindre coût. Les organisations sont souvent confrontées au défi de pouvoir accéder rapidement aux bonnes données au bon moment.
Presto a simplifié cela en permettant l'interrogation de bases de données relationnelles et non relationnelles et de magasins d'objets - ou de sources disparates comme vous pouvez les appeler collectivement - via SQL, permettant un accès plus facile aux données des outils BI et même du propre code des organisations.
La fédération de requêtes permet d'accéder plus facilement et plus rapidement à des données provenant de sources multiples en une seule requête. En effet, la consolidation de données provenant de différentes sources était autrefois un processus long et fastidieux. Vous avez besoin de processus d'extraction, de transformation et de chargement (ETL) pour rassembler les données dans un format partagé.
Mais les outils ETL ne sont généralement pas considérés comme adaptés par les experts de la communauté si vous recherchez un accès aux données en temps quasi réel ou à la demande. Ils ont été conçus pour un mode de travail par lots où les commandes sont lues et traitées en tant que lot sans intervention de l'utilisateur. L'ETL était plus adapté aux données établies et à évolution lente. De plus, l'ETL n'est pas accessible directement aux analyses de données et aux utilisateurs professionnels.
Les avantages des requêtes fédérées sont immenses par rapport aux approches de requête traditionnelles des autres solutions de bases de données. En voici quelques-unes :
Les utilisateurs n'ont pas besoin de mémoriser leurs identifiants ni de se connecter à des bases de données individuelles, car tout est centralisé au sein du service de requête fédéré. Cela permet un accès unifié aux données sur tous les types de sources et environnements informatiques.
Les requêtes fédérées facilitent l'analyse des données par les scientifiques et les analystes de données, car les outils ETL traditionnels étaient davantage destinés aux développeurs et aux codeurs qui comprenaient le langage de base de données.
Les requêtes fédérées sont généralement optimisées avant leur exécution, ce qui permet d'équilibrer la charge et de dédupliquer des centaines de requêtes utilisateur en temps réel. Cela conduit à un débit plus élevé et à une réduction des coûts lors de l'utilisation d'outils d'analyse avancés ou de veille stratégique, favorisant ainsi la prise de décision basée sur les données.
Le principal avantage est que les utilisateurs n'ont pas besoin de connaître le langage de requête ou de données spécifique à chaque base de données. La conversion automatique du langage de définition de données (DDL) dans les requêtes fédérées permet à quiconque d'effectuer des requêtes sur toutes les sources de données.
Notre étude approfondie sur les transformations numériques révèle que plus de 90 % des responsables informatiques et des données prévoient d’utiliser des architectures multicloud ou hybrides. Il est donc très peu probable que les applications et les données soient consolidées sur une seule plateforme cloud, qu’il s’agisse d’AWS, d’Azure, de GCP, d’IBM ou de votre environnement virtualisé privé.
Cela signifie que les données seront de plus en plus dispersées entre différentes sources et deviendront difficiles à gérer. Si les lacs de données constituent une solution souhaitable, la consolidation de toutes les données d'entreprise dans un lac et sa mise à jour continue peuvent s'avérer coûteuses.
Vous recherchez le moyen le plus rapide d’analyser les données stockées dans Amazon S3 ?
Les utilisateurs pointent simplement Athena vers les données stockées dans leur compartiment S3, identifient leurs champs, exécutent les requêtes et obtiennent des résultats en quelques secondes.
La nouvelle plateforme Athena d'Amazon utilise des requêtes fédérées qui permettent d'effectuer des requêtes SQL rapides et faciles sur les données stockées dans plusieurs sources de données relationnelles, non relationnelles, objets et personnalisées. À l'aide de connecteurs de sources de données exécutés sur AWS Lambda, les data scientists, ingénieurs et analystes peuvent analyser les données de plusieurs sources exécutées sur site ou dans le cloud avec une seule requête SQL.
Trianz a créé Grâce à un écosystème complet de connecteurs AFQ Trianz et AWS, vous pouvez produire des analyses et des visualisations hybrides/multicloud sans migrer ni consolider vos données. La bibliothèque combinée de connecteurs AFQ peut extraire des données de n'importe quelle source de votre entreprise ou d'autres plateformes cloud telles qu'Azure ou GCP. Nos connecteurs AFQ ont été testés et essayés par Amazon et par de grandes organisations de données complexes dans des entreprises Fortune 1000. La puissance d'Athena est de permettre aux utilisateurs techniques et non techniques de générer des visualisations riches et puissantes avec des requêtes simples, et d'économiser du temps et des ressources à long terme. Un exemple de requête fédérée utilisant les extensions AFQ de Trianz