El concepto de consultas federadas no es nuevo. Facebook PrestoDB popularizó la idea de los motores de consulta SQL (lenguaje de consulta estructurado) distribuidos en 2013.
A lo largo de los años, AWS, Google, Microsoft y muchos otros en la industria han acelerado la adopción de un modelo de motor de consultas distribuido dentro de sus productos. Por ejemplo, AWS desarrolló Amazon Athena sobre la base de código de Presto, mientras que BigQuery de Google se basa en Cloud SQL.
Las organizaciones almacenan sus datos en varios sistemas de almacenamiento y bases de datos, como bases de datos relacionales (MySQL, SQL Server, Postgres) y sistemas de almacenamiento de objetos (S3, HDFS) para almacenar grandes cantidades de datos a un precio más económico. Las organizaciones a menudo se enfrentan al desafío de poder acceder rápidamente a los datos correctos en el momento adecuado.
Presto simplificó esto al permitir la consulta de bases de datos relacionales y no relacionales y almacenes de objetos (o fuentes dispares, como puede llamarlas colectivamente) a través de SQL, lo que permite un acceso más fácil a los datos de las herramientas de BI e incluso del propio código de las organizaciones.
Facilitar el acceso a datos de múltiples fuentes en una sola consulta, y que sea demasiado rápido, es lo revolucionario de la federación de consultas. Esto se debe a que consolidar datos de diferentes fuentes solía ser un proceso largo y tedioso. Se necesitan procesos de extracción, transformación y carga (ETL) para reunir los datos en un formato compartido.
Sin embargo, los expertos de la comunidad no suelen considerar que las herramientas ETL sean adecuadas si se busca un acceso a datos casi en tiempo real o a pedido. Se diseñaron para un modo de trabajo por lotes en el que los comandos se leen y se ejecutan como un lote sin la intervención del usuario. ETL era más adecuada para datos establecidos y que cambian lentamente. Además, ETL no es accesible directamente para los usuarios comerciales y de análisis de datos.
Los beneficios de las consultas federadas son inmensos en comparación con los enfoques de consulta tradicionales de otras soluciones de bases de datos. A continuación, se indican algunos:
Los usuarios no necesitan recordar credenciales ni iniciar sesión en bases de datos individuales, ya que todo está centralizado dentro del servicio de consultas federado. Esto permite un acceso unificado a los datos en todos los tipos de fuentes y entornos de TI.
Las consultas federadas facilitan a los científicos y analistas de datos el análisis de datos, ya que las herramientas ETL tradicionales estaban más orientadas a desarrolladores y codificadores que entendían el lenguaje de las bases de datos.
Las consultas federadas suelen optimizarse antes de su ejecución, lo que permite equilibrar la carga de cientos de consultas de usuarios y eliminar los duplicados en tiempo real. Esto genera un mayor rendimiento y reduce los costos cuando se utilizan herramientas avanzadas de análisis o inteligencia empresarial, lo que promueve la toma de decisiones basada en datos.
La mayor ventaja es que los usuarios no necesitan conocer la consulta específica o el lenguaje de datos de cada base de datos. La conversión automatizada del lenguaje de definición de datos (DDL) en consultas federadas permite que cualquier persona realice consultas en todas las fuentes de datos.
Nuestro amplio estudio sobre las transformaciones digitales revela que más del 90 % de los líderes de TI y datos planean utilizar arquitecturas de nube híbrida o multicloud. Por lo tanto, es muy poco probable que las aplicaciones y los datos se consoliden en una única plataforma de nube, ya sea AWS, Azure, GCP, IBM o su entorno virtualizado privado.
Esto significa que los datos se distribuirán cada vez más entre distintas fuentes y será difícil gestionarlos. Si bien los lagos de datos son una solución deseable, consolidar todos los datos empresariales en un lago y actualizarlos continuamente puede resultar costoso.
¿Busca la forma más rápida de analizar los datos almacenados en Amazon S3?
Los usuarios simplemente apuntan a Athena a los datos almacenados en su depósito S3, identifican sus campos, ejecutan las consultas y obtienen los resultados en segundos.
La nueva plataforma Athena de Amazon utiliza consultas federadas que permiten realizar consultas SQL rápidas y sencillas en datos almacenados en varias fuentes de datos relacionales, no relacionales, de objetos y personalizadas. Mediante conectores de fuentes de datos que se ejecutan en AWS Lambda, los científicos de datos, ingenieros y analistas pueden analizar datos de múltiples fuentes que se ejecutan en las instalaciones o en la nube con una única consulta SQL.
Trianz ha creado extensiones de consulta federada de Athena (AFQ) sobre la plataforma Athena para simplificar la inteligencia empresarial y facilitar el análisis de fuentes de datos cruzadas. Estas extensiones suelen escanear datos de S3 y ejecutar los conectores basados en Lambda para leer datos de Teradata, Amazon Redshift, Google BigQuery y SAP HANA locales.
Con un ecosistema completo de conectores AFQ de Trianz y AWS, puede generar análisis y visualizaciones híbridos o multicloud sin migrar ni consolidar sus datos. La biblioteca combinada de conectores AFQ puede extraer datos de literalmente cualquier fuente de su empresa u otras plataformas de nube como Azure o GCP.
Nuestros conectores AFQ han sido probados y comprobados por Amazon y organizaciones de datos grandes y complejas de empresas de Fortune 1000. El poder de Athena es permitir que los usuarios técnicos y no técnicos generen visualizaciones completas y potentes con consultas simples, y ahorra tiempo y recursos a largo plazo.