自 90 年代以来,企业数据仓库 ( EDW ) 一直是几乎所有大型商业智能 (BI) 设置的先驱。通常,数据仓库(DW) 是一个集中式数据库,用于报告、规划和分析从各种历史来源组合而成的汇总和相关内容数据。企业数据仓库采用技术提取、转换、加载 ( ETL ) 并将内部和外部数据源传输到集中式多用途数据智能环境
标准企业数据仓库 设置包括:
提供数据源的不同存储和系统
通过 ETL(提取-转换-加载)流程进行数据集成和数据暂存
确保高数据质量和适当治理的流程,以确保德国之声实现其目标
帮助分析数据源、提供 DW 数据库和提供结果分析的应用程序和工具
传统上,数据源包括平面文件、关系数据库表和互联网服务。但如今网络日志、社交媒体和其他大数据源等其他来源也加入了竞争。
与具有适合复杂查询的规范化表并使用 ER 图建模的源 OLTP数据库不同,数据仓库数据库已非规范化,以允许简单的链接,从而确保更快的 OLAP 查询。它具有显示更高级的“雪花”或“星形”模式的数据模型。此外,它们被认为是随时间变化和非易失性的,因为它们会为不同的时间段生成相同的报告。当今的 EDW 和 LDW(逻辑数据仓库)具有更大的波动性。
数据集市是一种规模较小的部门数据仓库 ,
它利用从主数据仓库(从属)生成的子集,或为单个业务部门(独立)创建。ODS(操作数据存储)是一种临时操作数据存储(或 ODS),通常用于客户端文件。
更深入的见解
即使存在用于数据暂存和集成的各种数据仓库/商业智能架构(例如 ELT 及其混合),Ralph Kimball开发的 ETL 方法也具有被演示服务夹在中间的前台 BI 数据存储。
除了简单的 ETL 与 ELT 决策之外,还有大量其他问题需要考虑,例如在 EDW 的底层(数据仓库/提取-转换-加载)、中层(在线分析处理)和顶层(商业智能)运行的软件和硬件系统。为了达到阈值,EDW 通常使用 SQL 驱动的关系数据库。但随着数据进入 PB 级,多核 Unix 服务器、大型机和 Hadoop 数据节点以及 MarkLogic 等 NoSQL 数据库已变得司空见惯。
在底层,供应商产品管理 ETL 和相关的数据传输问题,例如数据捕获、复制和迁移以及各种逐渐变化的维度更新。
在中间层,通常会决定采用关系型联机分析处理( ROLAP ) 还是多维联机分析处理 (MOLAP)。在 ROLAP 下,数据是关系型的,在这种情况下,类似的结果需要 SQL 查询,而在 MOLAP 中,数据库是多维的,并保存数组中的组件视图(例如按时间划分的销售额)。
因此,在进行分析处理时,多维数据库会更快,而关系数据库通常用于 EDW,它们在顶层支持商业智能工具。因此,经常做出与规范化形式和分区策略有关的决定,以加快关系数据库查询。
在顶层,数据挖掘和商业智能选项几乎是无限 美国海外华人数据 的,由分析或报告(预测、诊断、规范等)需求决定。在这些情况下,外部数据准备服务消除了商业智能层的集成,大大加速了常见的可视化平台。
EDW 应用和优势
DW 顾问Craig Mullins在 TechTarget 上发表了一篇文章,他概述了 EDW 可以:
监控、管理和提高企业绩效。
检查并重塑营销活动。
重新评估并提高运营和物流的效率。
优化产品开发和管理
查询、合并和访问从不同来源收集的不同信息
监督并促进客户关系
帮助提供与未来增长、交付成果和要求相关的预测
整理并提高组织内的数据质量
某些行业案例表明,DW 和 EDW 用于:
评估呼叫、点击和其他消费者习惯
识别保险欺诈或确定费率
回顾治疗结果并提出药物治疗建议
监督货物运输和库存
检查设备/装置健康和服务状态
使促销和定价决策更加高效
预测犯罪活动并阻止恐怖活动
合理配置人员、车队和公司设施
EDW 的一个主要技术优势是它们与生产交易和应 提高转化率——打造出色的登陆页面 用程序中的操作程序分离。 Mullins 澄清说,在企业数据仓库中进行分析和查询提供了一种有用的方法来查看过去,而不会影响日常业务计算。 结果是提高了效率和盈利能力。
此外,从财务角度来看,EDW在数据交付模型方面是一个相对不错的选择,尤其是与 Hadoop、数据湖和设备等不太稳定、开放或受监管的替代方案相比。而且由于人才和工具市场的竞争激烈,对于那些认为实施 EDW 成本过高或过于复杂的人来说,进入门槛已经降低。
EDW 的演变过程
EDW 的出现源于基础设施、机遇、容量以及将交 羚羊加速器 易数据转化为信息的需求的融合——所有这些因素在过去二十年中都迅速增长。相关信息技术的发展导致许多企业进行变革或拆分,以便为基于数据的规则腾出空间。流程在简单和复杂之间交替,数据在动态企业环境中可能减少或增长。
如今,在大数据时代,出现了许多额外的目标和来源。数据的真实性、数量、速度、价值和多样性问题已得到充分证实,给传统的 EDW 带来了压力。