跳转至

产品介绍

产品简介

Aloudata AIR是一款先进的逻辑数据研发平台,致力于为企业提供轻量级的全域数据整合解决方案,高效的数据交付、探查能力。其底层虚拟化引擎能够无缝连接多种异构数据源,包括文件系统、传统OLTP及OLAP数据库、MPP数据库、分布式文件系统、企业API以及NoSQL数据库等各类数据源,不受地域与存储介质差异限制。通过创新的查询下推技术和关系投影机制,显著提升了跨源、跨地域场景下的查询性能。

在Aloudata AIR逻辑数据研发平台上,用户可利用视图定义功能对数据进行灵活加工和多层次嵌套处理,实现逻辑层面的数据整合。此外,AIR支持统一数据服务管理,用户可以便捷地创建、发布、上线或下线数据服务,确保数据以安全受控的方式对外部应用开放。同时虚拟化引擎也能支持JDBC接口(兼容了Presto JDBC Driver),方便外部BI报表系统访问数据资源。同时,AIR还构建了完善的数据资产目录体系,赋予用户统一管理和检索数据资产的能力,资产可根据目录结构、标签分类以及源类型等多种维度进行查找和组织,极大地提升了数据资产管理效率和使用便利性。 产品介绍_image_1.png

产品能力 上来看:通过逻辑数据平台,可以帮助企业实现全域的数据整合和处理,下图展示了从逻辑数据平台产品功能架构的角度来看,可以帮助企业能够实现哪些数据处理和管理能力: 产品介绍_image_2.png

从大数据 技术架构 角度来看:无论企业是否已经存在数据仓库或数据湖,只要企业存在多源的数据,又不想把所有的数据全部集中物理存储,那么基于逻辑数据平台,都可以搭建如下大数据系统架构,通过基于虚拟化技术实现的逻辑数据平台,实现企业全域数据的快速整合和业务交付。在面对复杂多变的业务场景时,相较于传统方案,此策略可显著提升至少一个数量级的交付效率,彰显出卓越的灵活性与业务响应速度。 产品介绍_image_3.png

产品架构

Aloudata AIR 是基于自适应加速的数据虚拟化引擎。无论存储在数据湖、数据仓库甚至更多地方,让每一个了解 SQL 的人,可以自助的进行全域数据的探索和构建,并实现高效一致的数据协作。

Aloudata AIR 通过联邦查询、动态集成、自适应加速和数据编排等技术,实现了数据虚拟化,直接基于SQL即可对全域数据开展探索、准备并提供服务,而无需关心数据存放位置、无需操心数据任务运维、无需担心查询性能,让业务人员真正实现全链路自助用数。 产品介绍_image_4.png

具体来说,它具备以下关键特性:

  • 高性能联邦查询 基于列存及向量化并行计算技术体系,实现了面向列存友好的高性能即席计算和零序列化数据传输,结合增强的Parquet文件向量化读取及查询下推技术,使得Aloudata AIR Engine在联邦查询性能相比开源Presto性能平均提升2~5倍以上。

  • 全场景智能加速 基于独创的关系投影加速技术,Aloudata AIR Engine具备全场景加速能力,不管是多源异构查询、多表关联分析、单表明细查询、多维聚合分析还是指标看板服务,都可获得相比开源方案更好的加速效果,同时基于分析场景和用户行为的查询自适应加速策略,实现了查询精准提速,加速后性能提升10到100倍。

  • 全链路数据编排 Aloudata AIR Engine可基于对全域数据集定义和用户查询行为的解析,构建全局算子图谱,并实现基于代价的投影构建规划,智能识别枢纽节点,构建全局成本最优的关系投影,并自动合并回收关系投影存储、下线低收益预计算任务和存储,获得比传统ETL方案至少30%的成本节约以及更快的数据时效。

  • 零运维数据更新 Aloudata AIR Engine可基于上游数据变更和数据集定义变更,自动对关系投影进行更新,而无需用户手动创建和触发ETL任务。通过上游数据更新事件触发或对元数据的变更监听,Aloudata AIR Engine可自动推断增量变更的分区,完成下游数据增量更新,免除业务人员对数据更新的关注。

  • 标准化协议接入 数据虚拟化的最终产出是将准备好的数据发布出去,以供下游消费。Aloudata AIR Engine为消费应用程序提供了单点接入方式,通过JDBC、ODBC和大规模数据传输友好的Arrow Flight等标准协议,用户可以在熟悉的工具产品中直接通过标准SQL方便快捷的查询用户发布的数据集,而无需改变工作习惯。

  • 精细化安全管控 Aloudata AIR Engine提供了统一且精细的数据安全管控能力,以保障业务自助用数的安全性,包括基于数据空间的数据可见性的控制,基于策略的数据访问权限控制。

信息架构与概念

Aloudata AIR 基于云原生的系统架构,为使用者提供便捷安全的数据使用环境。本主题介绍 Aloudata AIR 的整体信息架构以及核心概念,让你对 AIR 可以有一个宏观了解。 在主题包含以下内容:

  • 用户系统
  • 产品模块
  • AIR 信息架构
  • 概念

用户系统

用户在用户管理系统(CIP)中完成注册登记、身份认证等动作。通过引入,将用户添加至多个 Aloudata AIR 的租户内使用产品。 产品介绍_image_5.png

信息架构

Aloudata AIR 中可以被操作的实体分为两个层级:租户层级和工作区层级。下图描述了核心实体之间的层级关系。 产品介绍_image_6.png

租户

租户是 AIR 中的顶级概念,作为结算对象存在。 产品介绍_image_7.png 每个租户都存在一个唯一的负责人,该负责人是发起租户初始化的用户。 用户需要先从用户系统中注册到租户层级,才可以被授予工作区的使用权限。 Aloudata AIR 为租户层级预置了一些租户角色,它们可以满足日常的访问控制限制,租户级别的角色不支持自定义和修改。 一个租户下可以包含多个工作区,工作区与工作区之间资源隔离,无法互相通信。

工作区

工作区承载 AIR 中所有的数据资产和任务执行。 产品介绍_image_8.png 工作区内主要包含四类实体内容:计算资源、数据空间、数据源和角色。 计算资源与工作区绑定,不同工作区之间的计算资源相互隔离,互不干扰。每个执行任务都会通过路由规则匹配至不同的复杂队列中完成执行。 数据空间是用户数据存放的主要场所,用户分析后的结果都会以视图的形式保存在数据空间内,方便再次使用或共享。 数据源提供了连接外部数据源的能力,分为三种外部数据源:数据库类型的数据源,如 MySQL、Hive;对象存储的数据源,如 DELL ECS、阿里云 OSS;本地文件的上传。数据源内包含了实体表,在 AIR 中,你可以直接分析这些表数据。 在工作区内角色分为两大类:工作区角色和数据角色,工作区角色可以控制用户在当前工作区内的一些功能限制,数据角色控制用户对数据内容的增删改查限制。 在数据空间、数据源内支持创建关系投影,关系投影是 AIR 中为数据加速的关键能力,关系投影需要与表或视图关联。

概念

介绍 Aloudata AIR 中的重要概念

名词 英文 说明
数据空间 dataspace 用于存放视图的空间,等同于数据库的概念。
数据源 datasource 接入的外部数据源,包含关系型数据库、对象存储以及本地文件上传三种类型数据源。
视图 view 通过 SQL 逻辑生成的虚拟表,视图主要负责用来做数据的共享。
table 外部数据源中的内容为表,关系型数据库和本地文件上传的源中,表是通过文件叠加读取格式转换生成的。
文件 file 在对象存储和文件上传数据源中的内容。
关系投影 relational projection (RP) 关系投影被用于 AIR 中的查询加速,针对明细和聚合两种查询模式,AIR 提供明细投影和聚合投影两种类型的关系投影。
角色 role 工作区级别生效的用户角色。工作区角色管控工作区级别的资源权限,数据角色管控工作区内的数据资产的权限。
资源组 cluster 在不同工作区内可以分配不同的资源组。
负载队列 workload 任务通过负载队列分配计算资源,使用分配的计算资源完成任务执行。
路由规则 routing rule 根据查询内容以及上下文配置路由规则,可以将不同的查询推送至不同的负载队列执行,从而实现计算资源的逻辑隔离。