O conceito de consultas federadas não é novo. O Facebook PrestoDB popularizou a ideia de mecanismos de consulta de linguagem de consulta estruturada distribuída (SQL) em 2013.
Ao longo dos anos, AWS, Google, Microsoft e muitos outros na indústria aceleraram a adoção de um modelo de mecanismo de consulta distribuído em seus produtos. Por exemplo, a AWS desenvolveu o Amazon Athena sobre a base de código Presto, enquanto o BigQuery do Google é baseado no Cloud SQL.
As organizações armazenam seus dados em vários sistemas de banco de dados e armazenamento, como bancos de dados relacionais (MySQL, SQL Server, Postgres) e sistemas de armazenamento de objetos (S3, HDFS) para armazenar grandes quantidades de dados a uma taxa mais barata. As organizações frequentemente enfrentavam o desafio de conseguir acessar rapidamente os dados certos na hora certa.
O Presto simplificou isso ao permitir a consulta de bancos de dados relacionais e não relacionais e armazenamentos de objetos — ou fontes distintas, como você pode chamá-los coletivamente — via SQL, permitindo acesso mais fácil aos dados de ferramentas de BI e até mesmo ao código das próprias organizações.
Facilitar o acesso a dados de várias fontes em uma única consulta, e isso muito rapidamente, é o que é tão revolucionário sobre a Query Federation. É porque consolidar dados de diferentes fontes costumava ser um processo longo e tedioso. Você precisa de processos Extract, Transform, Load (ETL) para reunir dados em um formato compartilhado.
Mas as ferramentas ETL normalmente não são consideradas adequadas pelos especialistas da comunidade se você estiver procurando por acesso a dados quase em tempo real ou sob demanda. Elas foram projetadas para um modo de trabalho em lote, onde os comandos são lidos e executados como um lote sem intervenção do usuário. O ETL era mais adequado para dados estabelecidos e de mudança lenta. Além disso, o ETL não é acessível diretamente a usuários de análise de dados e de negócios.
Os benefícios das consultas federadas são imensos em comparação às abordagens de consulta tradicionais de outras soluções de banco de dados. Aqui estão alguns:
Não há necessidade de os usuários se lembrarem de credenciais ou fazerem login em bancos de dados individuais, pois tudo é centralizado dentro do serviço de consulta federado. Isso permite acesso unificado a dados em todos os tipos de fontes e ambientes de TI.
Consultas federadas facilitam a análise de dados por cientistas e analistas de dados, já que as ferramentas ETL tradicionais eram mais voltadas para desenvolvedores e codificadores que entendiam a linguagem de banco de dados.
Consultas federadas geralmente são otimizadas antes da execução, permitindo que centenas de consultas de usuários sejam balanceadas e "desduplicadas" em tempo real. Isso leva a uma maior produtividade e reduz custos ao usar ferramentas avançadas de análise ou inteligência de negócios, promovendo a tomada de decisões orientada por dados.
A maior vantagem é que os usuários não precisam saber a consulta específica ou a linguagem de dados para cada banco de dados. A conversão automatizada de Data Definition Language (DDL) em consultas federadas permite que qualquer pessoa realize consultas em todas as fontes de dados.
Nosso amplo estudo sobre transformações digitais descobre que mais de 90% dos líderes de TI e dados estão planejando usar arquiteturas de nuvem híbrida ou multi-nuvem. Portanto, é altamente improvável que aplicativos e dados sejam consolidados em uma única plataforma de nuvem – seja AWS, Azure, GCP, IBM ou seu ambiente virtualizado privado.
Isso significa que os dados serão cada vez mais distribuídos entre fontes de dados e se tornarão difíceis de gerenciar. Embora os data lakes sejam uma solução desejável, consolidar todos os dados corporativos em um lake e atualizá-los continuamente pode ser caro.
Procurando a maneira mais rápida de analisar dados armazenados no Amazon S3?
Os usuários simplesmente apontam o Athena para os dados armazenados em seu bucket S3, identificam seus campos, executam as consultas e obtêm resultados em segundos.
A nova plataforma Athena da Amazon usa consultas federadas que permitem consultas SQL rápidas e fáceis em dados armazenados em várias fontes de dados relacionais, não relacionais, de objetos e personalizadas. Usando conectores de fonte de dados que rodam no AWS Lambda, cientistas de dados, engenheiros e analistas podem analisar dados de várias fontes rodando no local ou na nuvem com uma única consulta SQL.
A Trianz construiu extensões Athena Federated Query (AFQ) sobre a plataforma Athena para simplificar o BI e facilitar a análise entre fontes de dados. Essas extensões normalmente escaneiam dados do S3 e executam os conectores baseados em Lambda para ler dados do Teradata local, Amazon Redshift, Google BigQuery e SAP HANA.
Com um ecossistema completo de conectores Trianz e AWS AFQ, você pode produzir análises e visualizações híbridas/multi-nuvem sem migrar ou consolidar seus dados. A biblioteca combinada de conectores AFQ pode extrair dados de literalmente qualquer fonte em sua empresa ou outras plataformas de nuvem, como Azure ou GCP.
Nossos conectores AFQ foram testados e experimentados pela Amazon e por grandes e complexas organizações de dados em empresas da Fortune 1000. O poder do Athena é permitir que usuários técnicos e não técnicos gerem visualizações ricas e poderosas com consultas simples, economizando tempo e recursos a longo prazo.