爱收集资源网

数据仓库在中国的应用前景如何?(组图)

网络 2022-09-30 01:07

数据仓库——挖掘“啤酒和尿布”

01-5-21 下午 4:19:25

对话者:

主持人:程。洪——《电脑世界》记者

专家首页:孟晓峰-中国人民大学信息学院教授

齐国辉——《数据仓库之路》网站主播

IT厂商:杨顺生-NCR大中华区市场及合伙人总经理

用户:陈道斌 - 中国工商银行信息管理部主任(博士)

对话主题:

数据仓库在中国的应用前景如何?

数据仓库的门槛有多高?

主持人:自从“啤酒和纸尿裤”的故事在中国广为流传后,数据仓库在中国也热闹了一段时间。很多创业者对它寄予厚望,但是为什么数据仓库应用这么快就进入了市场呢?“冬眠期”?哪些因素制约了数据仓库技术在中国的应用?

孟晓峰:数据仓库是在数据库的基础上发展起来的。它通常由三个部分组成:数据仓库(Data Warehousing)、在线分析处理(OLAP)和数据挖掘(Datamining),它们之间具有很强的互补关系。建立数据仓库是为了满足人们基于高数据积累的数据分析需求。但由于目前国内基础数据积累不足,数据仓库技术的应用并未得到普及。一项技术的出现,一般是由于创新者提出新概念和研究人员解决某些问题;虽然数据仓库已经过了这个阶段,但是目前在数据仓库的应用和推广过程中,又遇到了一个门槛。那' s 大多数人如何接受这项技术。我认为要让数据仓库被大多数人接受,首先需要解决的问题是如何将数据挖掘技术与现有的商业技术结合起来。目前市面上有很多通用的数据挖掘系统,适合解决所有的业务模型,但实际上这些系统使用起来极其困难。只有对数据挖掘技术非常熟悉的人才能够理解和使用,普通用户很难应用。这些技术解决了自己的业务问题。市场上有很多通用的数据挖掘系统,适合解决所有的业务模型,但实际上这些系统极难使用。只有对数据挖掘技术非常熟悉的人才能够理解和使用,普通用户很难应用。这些技术解决了自己的业务问题。市场上有很多通用的数据挖掘系统,适合解决所有的业务模型,但实际上这些系统极难使用。只有对数据挖掘技术非常熟悉的人才能够理解和使用,普通用户很难应用。这些技术解决了自己的业务问题。

杨顺生:我们是一家实际经营数据仓库产品的公司。从我们国内企业的经验来看,数据仓库技术在中国发展得并不好,主要有以下几个原因: 一是中国信息化基础设备比较不完善。例如,目前电信行业的计费数据非常分散,计费工具有40到50种。数据采集​​是分开进行的,给以后的分析带来了很多技术上的困难。二是企业竞争意识和服务意识不够强,对决策分析的需求不那么迫切。由于企业没有机会实施数据仓库,也导致该领域的技术人才短缺。第三,数据仓库是一个数据共享系统,不同层次的人获取的信息会有很大的不同。是企业决策的好工具,但目前中国企业还没有建立起推动数据化的管理机制。共享没有持续的管理机制,无论是人的能力、企业的组织体系还是数据质量。在此基础上建立有用的数据分析是非常困难的。企业组织体系或数据质量。在此基础上建立有用的数据分析是非常困难的。企业组织体系或数据质量。在此基础上建立有用的数据分析是非常困难的。

戚国辉:其实在国外市场竞争非常激烈的环境下,每个商场都已经为自己的生存拼了命。许多可以手动发现的规律早就被发现了。在这种情况下,使用数据挖掘技术来解决问题是很正常的想法。但是数据挖掘工具并没有告诉政策制定者他们应该一起销售啤酒和尿布。国内很多企业都实施了数据仓库,但大部分效果都不尽如人意。关键原因是,在建设数据仓库的时候,首先要确认为什么要​​投资数据仓库?我们应该使用数据仓库来解决哪些问题?数据仓库应该实现什么?目的能走到尽头吗?不然做完数据仓库后,还不知道怎么用,以及如何评估其成功与否。其次,数据仓库不是那种购买后就可以使用的软件产品。事实上,数据仓库更像是一个过程,一个用户逐渐认识自己、提升自己的过程。第三,数据仓库不仅要反映企业的当前状态,还要依靠用户做出最终决定。总之,国产数仓之所以不成功,不仅是用户的应用水平和业务管理水平有待提高,数仓产品价格居高不下的原因也影响了其一定程度上在中国的顺利推广。数据仓库更像是一个过程,一个用户逐渐认识自己、提升自己的过程。第三,数据仓库不仅要反映企业的当前状态,还要依靠用户做出最终决定。总之,国产数仓之所以不成功,不仅是用户的应用水平和业务管理水平有待提高,数仓产品价格居高不下的原因也影响了其一定程度上在中国的顺利推广。数据仓库更像是一个过程,一个用户逐渐认识自己、提升自己的过程。第三,数据仓库不仅要反映企业的当前状态,还要依靠用户做出最终决定。总之,国产数仓之所以不成功,不仅是用户的应用水平和业务管理水平有待提高,数仓产品价格居高不下的原因也影响了其一定程度上在中国的顺利推广。

陈道斌:我是从事信息分析的,我也在研究为什么要使用数据仓库。作为用户,我觉得银行业最需要数据仓库技术,应该大力发展数据仓库技术。近年来,国内几家主要银行在这方面进行了一些尝试,但迄今为止失败的多,成功的少。主要原因是很多银行在建立数据仓库系统时,并不清楚系统的功能定位。数据仓库系统应该与业务处理系统有明显的区别,因为业务系统的要求往往是快速响应和简单的界面。数据仓库和业务系统不是平行关系。它应该基于所有的业务系统。它应该是一个具有时间参数的稳定数据集合,用于收集、分析、组织和发布业务信息。数据仓库技术本身并无新意,它是管理科学、计算机科学、网络科学和分析方法的一次大融合。

数据仓库技术好用吗?

主持人:数据仓库应用不理想是有技术原因吗?用户的层次和数据仓库的前端工具是否存在矛盾?

孟晓峰:数据仓库的三个概念中,数据仓库是企业进行数据分析的基础。它的主要工作是对数据库中的原始数据进行汇总和组织,并将其收集成一个可以在高层次上使用的数据集。在数据仓库的基础上,有两种分析工具,一种是用于分析工作的OLAP,另一种是用于预测工作的数据挖掘。提出数据挖掘的概念是希望发现“啤酒和尿布”等相关规律。但是,目前这一技术体系的应用,无论是在中国还是世界其他国家,都受到一定的限制。主要原因是这项技术还没有达到数据库技术的成熟度和易用性。但就目前而言,所有产品的可用性都值得怀疑,因为如果你不是数据库专家、统计专家和人工智能专家,你将很难使用这些分析工具。目前市场上的数据仓库产品都是基于通用技术平台设计的。该产品虽然可以满足不同用户的分析需求,但并没有将特殊领域的业务逻辑与数据仓库技术相结合,因此分析效果无法达到巅峰。另一个技术瓶颈是各种算法层出不穷,还没有经历过大浪的沉淀。经过多年的探索,数据库中的检索技术已经形成了几个固定成熟的技术模型。

陈道斌:工行在建立数仓系统时的统一理解是,可以直接使用的数仓产品在市场上是买不到的,必须根据自己的业务量体裁衣,数据来源和业务需求必须是明确规定。,然后做好中间的桥接。这种桥接工作需要市场上数据仓库产品的支持。从一开始就必须注意业务和技术的协调。

齐国辉:由于数据仓库是从西方国家生产出来的,所以具有浓厚的西方文化色彩,其中最典型的就是数据仓库中报表的呈现方式。国外产品注重报告的内容,而中国要求内容和格式一样重要,有时格式甚至比内容更重要。在这一点上,国外的报表工具很难满足中国用户的需求。作为一种工具,数据仓库可以被企业各个级别的用户使用以产生收益。但实际实现时,仍然存在用户层次和需求的问题。安全措施也不允许这样做。此时,我们需要的是一系列不同的数据仓库前端工具,这是目前所有数据仓库产品所缺乏的。

数据仓库应用的范围有哪些?

主持人:哪些行业对数据仓库的需求更大?国内数据仓库技术目前都在使用哪些行业?为什么?

杨顺生:我基于一些假设分析了一些行业和企业实施数据仓库的成熟度。在2000年全球财富500强榜单中,近50%的企业实施了企业级数据仓库或行业级数据集市,据了解,电信、银行、零售、航空、铁路、邮政、食品、消费制造、汽车、医疗、保险等行业是对数据仓库技术需求最强的行业。在所有实施数据仓库的行业中,占比分别为:零售业17个,航空业16个,有线电话业15个,移动通信业14个,银行业13个。此外,我们还对全球不同行业实施数据仓库的企业数量进行了统计:根据国外实施的经验,我们发现对领导者的需求、信息技术基础设施、分析应用需求和竞争激烈程度分别为相关四个因素是影响企业实施数据仓库进度的关键因素。企业规模越大,历史数据越多,实施数据仓库的紧迫性越高;零售和制造企业目前更注重成本控制,将首先使用分析应用进行运营和生产;难点,实现数据仓库的速度比较慢;为加强监管,企业集团总部将利用数据仓库作为处理和分析大规模信息技术的手段;受过工商管理教育的领导更注重科学的决策方法,所以比较支持数据仓库的建设。

陈道斌:目前只有工商银行在数据仓库在中国金融体系的应用上取得了突破。服务模式;其次,早在1999年9月1日,工商银行就提出将所有业务集中在北京和上海进行处理,实际上解决了建设数据仓库所需的数据集中问题;第三,工商银行最大的优势之一是实施了一套统一开发的综合业务系统,为客户信息的整合提供了条件。从领导支持的角度来看,现任总裁专门研究高科技环境下的业务发展。他对利用信息技术发展银行业务有独到的见解。所以,工行目前是数据仓库的第一个项目。(客户关系管理)取得了实质性进展。

如何跨过数据仓库的门槛?

主持人:中国的数据仓库市场成熟了吗?针对上述限制,我们可以提出哪些解决方案?应该采取哪些措施和手段来推动中国企业数据仓库的应用?

齐国辉:问得好!Gartner Group 曾经有一份关于数据仓库市场份额的报告。从报告中可以看出,到2003年,美国数据仓库的销售额将占全球的58%,亚洲仅占7.5%。很难看出我们之间的区别。但目前两者的技术发展速度相近,因此数据仓库应用市场在中国依然存在。我想唯一的解决办法就是让公司直接面对竞争激烈的市场,转变管理思路,这样很快就有需求了,拳王的丰富经验永远不会通过读书和学拳来领悟。

孟晓峰:现在越来越多的公司都在建设基于网络的电子商店,这些商店可以收集大量的原始数据,因此电子商务已经成为数据仓库技术非常有前景的应用领域。而如何为电子商务应用提供专门的数据仓库解决方案,应该比一般的解决方案更能被市场接受,从而跨过数据仓库应用流程的门槛。如今,数据仓库应用领域的定制化需求很多,用户迫切需要一款既能提供数据分析又能提供客户个性分析的工具。

杨顺生:从先进国家的经验来看,我们发现在线事务处理系统(OLTP)和企业网络两个信息基础设施是实施数据仓库的必要条件。竞争环境越激烈,对数据仓库系统的需求就越大。企业需要了解客户需求,发现业务风险,进行业务分析和管理。所有这些分析都属于对海量数据的分析,而使用传统信息技术会产生很多限制,必须依靠一个TB级的数据仓库系统来解决上述问题。数据仓库是一种分析应用程序,是解决复杂业务问题最合适的信息技术。但是这些观点适合中国吗?企业生态环境?国内有没有案例支持这种观点?近期,上海证券中央登记结算公司和中国民航信息网络公司成功实施了TB级数据仓库系统。这两个案例最有力地证明了中国企事业单位实施数据仓库的必要性。

陈道斌:从工行数据仓库的实施情况来看,数据仓库技术在中国有很大的发展前景。数据仓库本身有很多技术和方法体系,但是在构建数据仓库的应用时,应该面向问题而不是面向方法,根据问题找到产品和工具。这方面失败的例子太多了。主要原因是很多公司第一次购买了数据仓库产品,觉得产品非常好。他们必须在开始构建自己的系统之前使用它。这种方法已被实践。证明不可行。数据仓库应用的开发不能一蹴而就,不可能一次解决所有问题。数据仓库的构建过程要注意方法论,要在大需求框架下进行。在业务人员和技术人员沟通良好的情况下,一次解决一个问题。

【记者点评】“枪手”与“枪”

对话中,记者最大的感受是,由于数据仓库不能直接告诉决策者应该把啤酒和纸尿裤放在一起,企业也不能把所有的“宝物”都放在数据仓库上。如果说数据仓库是一把好“枪”,那么决策者就应该是“枪手”。

数据仓库只能反映企业的现状,最终的决定还是需要人来做。数据仓库中有两种应用,即在线分析和数据挖掘。在线分析侧重于对所有交易的多角度呈现,而数据挖掘侧重于发现交易中包含的未知规律。从商业的角度来看,两者都可以用来发现和总结规律。一是通过验证某些猜想来发现规律,二是通过数据发现隐藏的未知规律。数据挖掘的成功取决于对数据和算法的合理处理。它不是任何规则都可以发现的通用工具。因此,越熟悉的用户对自己的业务,他们能为数据挖掘提供更完善的帮助和指导。,盲目使用数据挖掘只能给数据挖掘技术留下遗憾。

追溯:

数据仓库 数据挖掘 数据挖掘算法
上一篇:如果有的话,你可能是遗传性狐臭吗? 下一篇:没有了