BI入门经典

发布时间：2020-12-31 00:42:04 所属栏目：大数据来源：网络整理

导读：【前言】 ?????昨天论坛的SQL Server大版新增了一个BI板块，大家讨论得热火朝天，由于此前因为客户环境的问题，一直在使用sql 2000，没怎么关注这一块的东西，最近刚好要做购物篮的分析，所以到网上搜集了一些资料。为了跟大家保持“步调一致”，也写点或

(8) BI 底座——数据仓库技术(DataWarehouse)? ???
??? 在开始喷这个主题之前，让我们先看看数据仓库的官方定义：
??? 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合，用于支持管理决策。以上是数据仓库的官方定义。
??? “操作型数据库”如银行里记账系统数据库，每一次业务操作（比如你存了5元钱），都会立刻记录到这个数据库中，长此以往，满肚子积累的都是零碎的数据，这种干脏活累活还不得闲的数据库就叫“操作型数据库”，面向的是业务操作。
??? “数据仓库”用于决策支持，面向分析型数据处理，不同于操作型数据库；另外，数据仓库是对多个异构的数据源有效集成，集成后按照主题进行了重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。
??? 操作型数据库、数据仓库与数据库之间的关系，就像 C:、D: 与硬盘之间的关系一样，数据库是硬盘，操作型数据库是 C:，数据仓库是 D:，操作型数据库与数据仓库都存储在数据库里，只不过表结构的设计模式和用途不同。??

那么为什么要在操作型数据库和 BI 之间加这么一层“数据仓库”呢？

???一是因为操作型数据库日夜奔忙，以快速响应业务为主要目标，根本没精力伺候 BI 这边的数据需求，而且 BI 这边的数据需求通常是汇总型的，一个 select sum(xx) group by xx 就能让操作型数据库耗费大量资源，业务处理跟不上趟，麻烦就大了，比如你存了 5000 元钱，发现十分钟后钱还没到账，作何感想？一定是该银行的领导在看饼图？

二是因为企业中一般存在有多个应用，对应着多个操作型数据库，比如人力资源库、财务库、销售单据库、库存货品库等等，BI 为了提供全景的数据视图，就必须将这些分散的数据综合起来，例如为了实现一个融合销售和库存信息的 OLAP 分析，BI 工具必须能够高效的取得两个数据库中的数据，这时最高效的方法就是将数据先整合到数据仓库中，而 BI 应用统一从数据仓库里取数。

将分散的操作型数据库中的数据整合到数据仓库中是一门大学问，催生了数据整合软件的市场。这种整合并不是简单的将表叠加在一起，而是必须提取出每个操作型数据库的维度，将共同的维度设定为共用维度，然后将包含具体度量值的数据库表按照主题统一成若干张大表（术语“事实表”，Fact Tables），按照维度-度量模型建立数据仓库表结构，然后进行数据抽取转换。后续的抽取一般是在操作性数据库负载比较小的时候（如凌晨），对新数据进行增量抽取，这样数据仓库中的数据就会形成积累。

大多数 BI 应用并不要求获取实时的数据，比如决策者，只需要在每周一看到上周的周报就可以了，95%的 BI 应用都不要求实时性，允许数据有 1 小时至 1个月不等的滞后，这是决策支持系统的应用特点，这个滞后区间就是数据抽取工具工作的时间。当然，BI 应用中通常还将包含极少的对实时数据的要求，这时仅需针对这些特殊需求，将 BI Querying 软件直接连接在业务数据库上就可以了，但是必须限制负载，禁止做复杂查询。

???目前的数据库产品都对数据仓库提供有专门优化，例如在安装 MySQL 的高版本时，安装成序会询问你是想让数据库实例作为Transaction-Oriented ，还是 Decision Support ，前者就是操作型数据库，后者就是数据仓库（决策支持么，再振臂高呼一遍），针对这两种形式，数据库将提供针对性的优化。?

(9) BI 花边?????
??? BI 的相关知识大致就是这样了，写一些花边作为结束语吧。
??? BI 要害：BI 无法处理非结构化数据，只能处理数字信息，但是在企业中，还存在有大量像文本、流媒体、图片等非结构化的数据，这些数据同样蕴藏有大量价值，但是面对这些数据，目前的 BI 工具无能为力。比较靠谱的是 IBM Intelligent Miner forText，但是它在处理中文方面似乎十分薄弱。
??? BI 厂商和产品：

首先让我们认识一下国外大人物！数据仓库方面，有 IBM DB2，Oracle，SybaseIQ，NCR Teradata 等等；BI 应用方面，有 Cognos，Business Objects，MicroStrategy，Hyperion，IBM 等等；数据挖掘方面，有 IBM，SAS，SPSS 等等。巨无霸 Microsoft 也在 BI 领域插了一腿，推出了 SQL Server Analysis Server、Reporting Services 等 BI 相关产品抢占山头！

我们往往容量只把眼光放在国外的BI大佬们而忽略国内渐渐突起的BI新军，如今国内比较出名的BI有奥威智动的Power-BI，尚南的BlueQuery 及润乾报表等，特别值得一提的是奥威智动的Power-BI是一款标准化BI，在国内已经具有一定的市场占有率。
??? 中国的 BI 市场发展：

?BI 工具在中国遇到的难题： * 复杂表样：中国是世界上报表最复杂的国家。中国的表样设计思想与西方不同，西方报表倾向于仅用一张报表说明一个问题，而中国的报表倾向于将尽可能多的问题集中在一张报表中，这种思路直接导致了中国报表的复杂格式和诡异风格。 * 大数据量：中国是世界上人口最多的国家。以中国移动公司为例，仅我国一个省的用户数量，就相当于欧洲一个中等国家的人口，是真正的海量数据！国外数据库、数据仓库和 BI 应用软件，都在中国经受着大数据量承载能力的考验。对于美国，可能一个客户分析应用两秒钟就能出结果，但是在中国这样的数据量下，可就不是两秒钟的问题了。 * 数据回写：中国是世界上对 BI 系统要求最奇特的国家。本来BI 系统是以忠实再现源数据为原则，但这个原则在中国遇到了难题，许多领导都提出了数据修改需求，“报表里数字不好看，就要能改啊，而且有时候也需要调整啊，这样上级领导看着就好嘛！”一个领导如是说。目前能满足此要求的 BI 产品，仅有 Microsoft 和 MicroStrategy 两家。微软对中国市场算是吃透了。

（编辑：安卓应用网_ASP源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/2

首页