为了更好地理解操作数据存储 (ODS) 和数据仓库之间的区别,最好澄清一下,ODS 不是数据仓库的替代品。虽然 ODS 通常是数据仓库的中间或暂存区,但 ODS 的不同之处在于其数据会被覆盖并且经常更改。相比之下,数据仓库包含用于归档、存储、历史分析和报告的静态数据。
然而,ODS 和数据仓库有很多共同之处,因为它们都从不同的来源导入和整合数据。这些来源提供了分析和报告的关键功能,但区分两者之间的细微差别很重要,以决定是部署一个集成数据解决方案还是将它们结合到分层数据架构中,为您的组织提供最多的商业智能 (BI)。
美国一家财富 100 强财产和意外伤害保险公司发现,由于开发生命周期缓慢、数据处理能力有限以及对 IT 的严重依赖,难以有效管理运营。他们在将现有应用程序迁移到基于事件的架构时,正在寻找低成本的基础设施和分析解决方案。
他们知道还有更好的方法,因此着手部署智能、先进的 ODS 和分析解决方案。要了解我们如何将他们现有的应用程序迁移到基于事件的架构,请阅读有关部署下一代运营数据存储的案例研究。
正在寻找一种更快的方式来从您的 ODS 和数据仓库中查询数据?
Amazon Athena 联合查询连接器可以连接和查询 AWS 生态系统之外的多个数据库。
数据仓库是一种用于报告和数据分析的系统,可作为从不同来源集成的数据的中央存储库。数据仓库存储非结构化、结构化和半结构化数据,为组织提供长期战略规划的单一事实来源 (SSOT)。
大多数数据仓库包含以下元素:
关系数据库 (RDB) 用于存储与客户、订单或产品相关的大量业务数据。
用于准备大数据以进行统计分析、报告和数据挖掘功能的提取、加载和转换 (ELT) 解决方案。
用于向业务用户呈现数据的客户端可视化工具。
高级数据仓库通常包括复杂的应用程序,这些应用程序通过应用数据科学和人工智能 (AI) 算法来生成可操作的信息。
数据仓库可以部署在本地、云中或混合云环境中。大多数数据仓库都托管在云服务上,这为本地基础设施提供了更具可扩展性和成本效益的解决方案。最受欢迎的云数据仓库选项包括:
1. Amazon Redshift是一个完全托管的、基于 AWS 云的数据仓库平台。对于拥有现有关系数据库管理系统 (RDBMS)(例如 MySQL、PostgreSQL 和 Oracle DB)的企业来说,Redshift 是一个绝佳的选择。
2. Azure SQL 数据仓库是 Microsoft 管理的 PB 级服务,具有独立管理计算和存储的控件。它最适合希望在按需付费环境中暂停计算层并持久保存数据以降低运营成本的用户。
3. Google BigQuery是一个无服务器、高度可扩展且经济高效的多云数据仓库,专为海量数据集的交互式分析而设计。Google 提供集成的机器学习和商业智能工具,例如 BigQuery ML 和 BigQuery BI Engine,以支持高级分析功能。
4. SAP 数据仓库云是一种 SAAS 云解决方案,包括数据集成、数据库、数据仓库和分析功能,帮助组织构建数据驱动的企业。
5. Snowflake是专为大数据分析而设计的 ANSI 标准 SQL 列式存储数据库。Snowflake 最适合运行复杂查询、进行数据分析或大数据科学的组织。
除了数据仓库提供分析能力以改善业务决策之外,数据仓库还可以通过以下五种方式为企业带来关键竞争优势。
如果格式正确,数据仓库提供的准确数据对于让决策者从过去的趋势和挑战中吸取教训至关重要。数据仓库可以通过列出以前策略的所有关键绩效趋势来为历史数据添加背景信息,而这是传统数据库无法实现的。
无论是在本地还是在云端,数据仓库都可以通过使用加密和特定保护设置(例如“从属只读”)来阻止恶意 SQL 代码并保护机密数据,从而确保数据安全。
数据仓库是为组织提供保持运营平稳运行所需的可扩展性的关键组件。处理更多查询并在高峰需求期间扩大和缩小规模的能力有助于提高整个业务的可扩展性。
通过使用历史数据来实现从库存到关键销售到产品发布等所有事项的更智能、基于指标的决策,组织可以创建不依赖直觉的竞争策略。
数据仓库使组织能够回答一些重要问题,例如:可用数据资产的价值是多少?利益相关者是否可以实时访问我们的数据?数据流可以货币化吗?可用数据资产的价值是多少?回答这些问题的能力使组织的数据仓库投资回收期少于两年。
数据仓库的主要缺点之一是其非易失性,这意味着数据是只读的并且需要清理。这会导致时间差异,这意味着数据仓库更新是按预定的批次进行的,从而导致报告可能过时。
因此,许多组织选择实施 ODS 作为暂存区,以集成日常运作的运营数据。
操作数据存储是一种经济高效的解决方案,可以解决数据仓库的非易失性问题。ODS 不需要与数据仓库相同类型的转换。由于 ODS 只能存储结构化数据,因此数据仍保留在其现有模式中,使其更像使用写入模式方法的数据湖。
从这个意义上讲,ODS 充当了存储组织最新数据快照的存储库,使用户在搜索组件系统之前更容易诊断问题。例如,ODS 允许服务代表立即查询交易以回答:
客户的包裹目前在哪里?
交易为何没有成功?
我可以采取哪些步骤来进一步解决这个问题?
由于暂存区几乎实时地从交易源接收运营数据,因此只需提供对正在查询的当前数据的访问,即可减轻交易系统的负担。这使得 ODS 成为那些希望全面了解与当前数据记录相关的信息以更快地做出业务决策的人的理想解决方案。
您的企业如何从运营数据存储中获益?以下是五个令人信服的理由,说明您为何应该考虑使用 ODS 为您的企业提供所需的速度、规模和灵活性。
ODS 的构建和实施成本比数据仓库和数据湖低得多。虽然价格会根据运营要求和用例而有很大差异,但 ODS 的成本通常约为企业预期支付的内部部署数据仓库成本的十分之一。
由于操作数据存储仅收集当前数据,因此查询过程无需进行多级连接,从而得到简化。这在查找数据以即时回答紧迫的交易问题时尤其有用。
由于 ODS 充当暂存区,它可以将数据配置为一种一致的格式。这可以提高数据在被发送到数据仓库之前的整体质量,在数据仓库中,这些数据将用于战略决策。
ODS 提供时间敏感的业务数据,这些数据在嵌入不同的源系统时无法找到。由于 ODS 提取实时运营数据,因此它通过将这些信息整合到快照存储库中,简化了报告流程并大大提高了效率。
下一代 ODS 可将手动模式映射简化为只需单击一次即可。借助微服务架构,组织能够更快地将新服务推向市场。
传统的 ODS 解决方案通常存在高延迟问题,因为它们要么基于关系数据库,要么基于磁盘的 NoSQL 数据库。这些系统根本无法同时处理大量数据并提供高性能。
传统系统的可扩展性有限,当多个用户同时访问数据存储时,也会导致性能问题。因此,传统的 ODS 解决方案无法为访问记录系统提供实时 API 服务。
简而言之,这取决于您的用例和要分析的数据量。如果您的组织预计会有大量客户、员工和客户帐户信息,那么 ODS 解决方案应该与数据仓库系统集成。
合并或收购是创建分层架构需要考虑的另一个因素。为了能够集中查看多个源系统中的当前和历史数据,结合 ODS 和数据仓库将提供整个企业最相关的快照。
在这个数字时代,云计算承诺提供极大的自由和灵活性,将云、分析和大数据平台结合在一起的强大 IT 基础设施将推动您的企业实现卓越业务。
Trianz 的分析团队可以开发和部署 ODS 解决方案,同时尽量减少对您的整体业务流程的干扰。通过在 AWS EC2 上使用 Hortonworks 数据平台 (HDP) 部署下一代运营数据存储、在 AWS 简单存储服务 (S3) 上部署 Hadoop、弹性块存储 (EBS) 和 AWS EC2 实例存储,转型将弥补缓慢的开发生命周期、有限的数据处理能力和对 IT 的严重依赖。
版权所有 © 2024 Trianz