>首页> IT >

每日观察!Cloudera用现代化企业数据架构,拥抱混合数据未来

时间:2022-09-30 08:06:57       来源:CCTIME飞象网作 者:魏德龄


(资料图片仅供参考)

数据的发展能够产生什么样的魔法效益?跑步、骑车这类曾经被很多人在中学时代视为枯燥的耐力项目,随着秒表/码表发展成为了智能表/功率计,让更多人在数据的爆发中发现此前未知的自我,比赛过程中运动员所实时共享出的数据,也大大提升了观赏度。如今,云计算大数据也照样在体育赛事中崭露头角,足球比赛中实时分析产生的跑动距离、点球方位的统计,F1赛事中对于排位赛晋级圈速的估算、正赛中车辆之间的实时距离,全部给予了观众耳目一新的感觉。

这一切的背后正是数据的发展,不同位置多种来源的数据源源不断的产生,如同一堆混乱的表格文件,在企业主的桌面上堆砌,其中蕴涵着无数可能,也充满了管理的烦恼。数据大爆发的背后,数据生态系统架构也正在朝向未来进化。

未来数据生态系统架构

谈及未来数据生态系统架构,普遍被大家所提及并达成共识的莫过于数据网格、数据编织、湖仓一体这三个概念。

数据网格是指一种范式转变,其中数据由业务中的不同域拥有和管理。“它的想法是数据与产品思维的融合,这个产品是讲企业内部里数据对外提供服务的方式。 ”Cloudera大中华区技术总监刘隶放解释称。以往企业在分析领域的思路多是集中式的管控,对外进行服务,而数据网格范式基于域主权、数据为产品、自助式数据平台、联合计算治理四项原则。通过域主权,数据成为一个产品,部门之间可以以产品的方式调用,规避了“影子IT”所带来的一系列问题。

数据编织是一种跨平台的数据整合方式,它不仅可以集合所有业务用户的信息,还具有灵活且弹性的特点,使得人们可以随时随地使用任何数据。“我们现在要做的事情,可能不光对人工的方式、手动数据管理进行服务,也要对未来的机器学习、自动的发现方式、对外进行服务,在这个框架里比以前要求更高。 ”刘隶放表示过去手动的元数据管理现在正在被一种积极主动的通过机器学习来构建元数据的方法取代。Gartner在今年提出数据编织的终极目标是为了数据的集成和访问提供一种更灵活的,无缝的自动化的方式,其中主要包括能够连接的服务与提供自助的服务。

湖仓一体集成并统一了数据仓库和数据湖的功能,旨在支持单一平台上的AI、BI、ML和数据工程。其集数据仓库与数据湖之所长,并规避了两者存在的一些问题,适用于数据分析和机器学习工作负载,拥有减少数据冗余、成本效益,易于数据版本控制、治理和安全性等多重优势。“有了湖仓一体,我们可以在同一个平台里同时实施数据仓库和数据湖的需求,这个时候会提高成本效益。 ”刘隶放表示湖仓一体去其实也是降本增效的一个思路。

人人获益的三种方法论

值得一提的是,这三种正在被外界广泛讨论并认可的方法论其实本身并不矛盾。刘隶放认为面对企业内部的不同角色,就需要讲不同的数据架构和方法论。

对于公司CEO或CIO而言,由于更关注如何在管理成本和维护人员规模的同时进行扩展,自然会关心数据网格,进而平衡企业内不同业务部门在组织架构下的数据所有权,以及数据和产品服务的方式。

对于CTO或CSO而言,其真正关心的是如何做技术方案与分析系统,保持一致性并构建标准模式,数据编织自然成为了关注的焦点,如何用数据编织的方法丰富数据仓库的构建方式,能够为将来机器学习自主的治理提供服务。

对于领域从业者或技术人员而言,湖仓一体则更为受用,可以理解为方法论,也可以理解为工具,寻求在具体项目上的优化。

Gartner曾经表示:“未来数据的生态系统应该充分的利用分布式数据管理组件,可以在多个云和/或本地进行运行,但应该被视为具有高度自动化的紧密的整体,像集成、元数据管理和治理功能将各个组件粘合在一起。 ”

这就意味着,关于数据未来的三种方法论其实将会有机的融为一体,最终让企业中的每个角色获益。

拥抱混合数据未来

Cloudera的新定位恰恰呼应了企业数据架构的未来,这家混合数据公司给出的定位是:我们提供适用于数据编织、数据湖库、数据网格和未来数据生态系统架构要求的混合数据平台的混合数据平台,允许客户在多个公共和私有云以及本地访问和分析数据,使企业能够做出由数据驱动的明智决策,帮助企业建立由数据驱动的未来。

实际上,CDP(Cloudera Data Platform) 是业界唯一适用于数据编织、数据湖库、数据网格和未来数据生态系统架构要求的混合数据平台。 Cloudera的数据平台实现了对于现代数据架构的全面支持,产品技术能够适应数据网格、数据编织、湖仓一体这三种架构概念,同时在多云和本地部署上,都可以做到管理和分析。Cloudera的分析代码经过一次编写即可跨平台运行。另外,SDX还能够做到数据的统一安全管控和治理。

以灵活且简单的方式建立数据驱动型文化、以性能和成本效益驱动价值、以速度和控制拉动企业增长是Cloudera拥有的三大核心优势。“我们仍然致力于实现让每个人都可以轻松访问数据和分析的愿景,以及我们成为混合数据领导者的使命。我们相信,数据可以让今天的不可能,在明天成为可能。”此前Cloudera的一篇官方文章中曾这样表述。

对于众多企业来说,数据正在源源不断的出现,如何利用数据挖掘其中价值,在未来或许比获取更多数据更加重要。Cloudera的数据平台将为企业带来通过数据战略在竞争中实现“弯道超车”的机会,混合数据方法即将成为企业未来的“必需品”。

关键词: 生态系统 机器学习 数据管理