开源数据仓库,这种破坏力完全颠覆了数据仓库和其他很多市场。现在,开源革命已经渗透到数据仓库领域。实现数据仓库不仅有构建模块的工具和技术,而且数据仓库本身也已经开源。下面是支持开源数据仓库的解决方案。

第一,数据库系统。当数据仓库成功部署后,开源构建块的数量大大增加,这表明采用开源数据仓库的时机已经成熟。例如,Gartner报告称,近年来,开源DBMS引擎有了显著增长。Gartner还发现,47%的受访公司已经采用开源数据仓库,19%的公司正在考虑在12个月内采用开源数据仓库。

在很多情况下,正在广泛采用开源数据仓库的市场是大型数据库供应商长期忽视的市场。但是,如果公司以活跃的商业数据库实现项目为主,开源数据仓库也会存在于公司内部。对独立Oracle用户组(IOUG)的226名成员的研究表明,超过三分之一(35%)的网站也有开源数据库,如运行MySQL。

第二,ETL工具。与开源数据仓库同时出现的还有ETL,开源分析/商业智能工具,逐渐在企业中应用。Gartner估计,大约11%的受访公司正在使用开源ETL工具,16%的公司正在考虑在未来几个月内采用此类工具。开源ETL工具包括KETL,Talend,Clover。Pentaho的ETL和章鱼。

第三,商业智能。在商业智能和分析工具领域,Gartner指出,9%的受访公司采用了开源BI解决方案,18%的公司正在考虑在未来12个月内采用开源解决方案。目前市场上有很多开源的BI或分析程序,以Pentaho和JasperSoft为主要供应商。与此同时,Ventana Research对500家公司的调查证实,BI受到了广泛的关注,并且这种趋势还在继续增长;21%对开源商业智能感兴趣的公司已经部署了开源程序。显然,仍然有许多公司声称他们未来没有这样的项目,因为他们不会考虑开源商业智能。

开源数据仓库应用如此广泛,客户满意,并且拥有开源数据库和开源分析工具,这并不奇怪。之前供应商根据开源数据库(如MySQL、PostgreSQL、Ingres)生产数据仓库的专有产品;现在,供应商开始推出全面的开源数据仓库解决方案及其配套社区。

最近在www.infobright.org发布的产品ICE (Infobright社区版)及其配套社区就是一个很好的例子。论坛显示,社区用户的数量在增加,其中一些用户对数据库非常熟悉,但对数据仓库相对陌生。MySQL扩大了数据库市场,ICE等开源产品也是如此,因为数据量在快速增长,对分析的需求也在增加。

开源数据仓库的优势

开源数据仓库可以解决当前很多问题,占用空间少,管理资源少。将开源模型应用于数据仓库的优势在于:

第一,开源数据仓库前期花费较少,维护和支持费用也较少。目前市场上的开源软件产品通常比相应的授权产品便宜。此外,开发人员和IT管理人员可以下载开源产品的源代码,定制或修改产品,从而进一步简化操作。

其次,开源数据仓库采用的技术在市场上很容易买到。因此,如果公司拥有现有数据库或数据仓库的专业知识,则在实施新的开源数据库项目时不需要进一步研究。

第三,开源数据仓库极大的促进了标准化。开源代码是透明的,并且支持社区。因此,一些重要的标准可以得到各种版本和实现的一致支持。在这些设置中,不能也不会支持专有表单。

第四,开源数据仓库相当灵活。与按用户或处理器收费的专有软件包不同,开源许可使企业能够将其解决方案扩展到无数用户。公司可以增加用户或扩大项目,只需要很少的成本或不需要成本。此外,最终用户公司不必担心被供应商的强制升级路径锁定,而是可以选择新版本的系统。

第五,开源数据仓库可以受益于网络社区效应。开源解决方案利用开发者和创新者社区来促进开发。向社区贡献新代码和新特性,并不断为最终用户提供各种可用的新解决方案。社区的方法也可以应用到数据仓库中——开辟一个新的领域,它将能够很好地适应环境,因为有许多系统和数据类型需要集成到数据仓库中。单一供应商提供的解决方案很难解决所有集成问题。此外,公司可以依靠社区快速修复bug或安全缺陷,这通常只需要几天时间,而不是等待几周甚至几个月,直到供应商再次提供安全补丁或服务补丁。

第六,开源数据仓库可以分步实现。对于一个大型项目,不要大喜过望。即使数据经理需要实现新的功能,他们也不必向预算委员会要求资金来支付公司昨天要求的性能。项目可以从小规模起步,在成功实施的基础上逐步完成。这也可以缓解“过度承诺”的问题,这是为数据仓库项目确定最佳资金时的最后一招。开源数据仓库不需要启动大量资本,而是先瞄准最紧迫的商业问题,随着成果的增长加大出资人的投入。

随着开源的兴起,开源数据仓库解决方案可以应用于从未享受过其便利的绿色环境。如果中小企业需要管理和观察大数据量,但缺乏实现和支持大型专有数据库所需的资金或资源,那么开源数据仓库非常合适。另外,开源数据仓库专门针对大型企业的一些部门或业务部门提供解决方案。一旦出现业务问题,可部署的解决方案可以很快得到解决。以下建议可以最大程度的帮助你实现开源数据仓库。