产品介绍
产品简介
Aloudata AIR是一款先进的逻辑数据研发平台,致力于为企业提供轻量级的全域数据整合解决方案,高效的数据交付、探查能力。其底层虚拟化引擎能够无缝连接多种异构数据源,包括文件系统、传统OLTP及OLAP数据库、MPP数据库、分布式文件系统、企业API以及NoSQL数据库等各类数据源,不受地域与存储介质差异限制。通过创新的查询下推技术和关系投影机制,显著提升了跨源、跨地域场景下的查询性能。
在Aloudata AIR逻辑数据研发平台上,用户可利用视图定义功能对数据进行灵活加工和多层次嵌套处理,实现逻辑层面的数据整合。此外,AIR支持统一数据服务管理,用户可以便捷地创建、发布、上线或下线数据服务,确保数据以安全受控的方式对外部应用开放。同时虚拟化引擎也能支持JDBC接口(兼容了Presto JDBC Driver),方便外部BI报表系统访问数据资源。同时,AIR还构建了完善的数据资产目录体系,赋予用户统一管理和检索数据资产的能力,资产可根据目录结构、标签分类以及源类型等多种维度进行查找和组织,极大地提升了数据资产管理效率和使用便利性。

从 产品能力 上来看:通过逻辑数据平台,可以帮助企业实现全域的数据整合和处理,下图展示了从逻辑数据平台产品功能架构的角度来看,可以帮助企业能够实现哪些数据处理和管理能力:

从大数据 技术架构 角度来看:无论企业是否已经存在数据仓库或数据湖,只要企业存在多源的数据,又不想把所有的数据全部集中物理存储,那么基于逻辑数据平台,都可以搭建如下大数据系统架构,通过基于虚拟化技术实现的逻辑数据平台,实现企业全域数据的快速整合和业务交付。在面对复杂多变的业务场景时,相较于传统方案,此策略可显著提升至少一个数量级的交付效率,彰显出卓越的灵活性与业务响应速度。

产品架构
Aloudata AIR 是基于自适应加速的数据虚拟化引擎。无论存储在数据湖、数据仓库甚至更多地方,让每一个了解 SQL 的人,可以自助的进行全域数据的探索和构建,并实现高效一致的数据协作。
Aloudata AIR 通过联邦查询、动态集成、自适应加速和数据编排等技术,实现了数据虚拟化,直接基于SQL即可对全域数据开展探索、准备并提供服务,而无需关心数据存放位置、无需操心数据任务运维、无需担心查询性能,让业务人员真正实现全链路自助用数。

具体来说,它具备以下关键特性:
-
高性能联邦查询 基于列存及向量化并行计算技术体系,实现了面向列存友好的高性能即席计算和零序列化数据传输,结合增强的Parquet文件向量化读取及查询下推技术,使得Aloudata AIR Engine在联邦查询性能相比开源Presto性能平均提升2~5倍以上。
-
全场景智能加速 基于独创的关系投影加速技术,Aloudata AIR Engine具备全场景加速能力,不管是多源异构查询、多表关联分析、单表明细查询、多维聚合分析还是指标看板服务,都可获得相比开源方案更好的加速效果,同时基于分析场景和用户行为的查询自适应加速策略,实现了查询精准提速,加速后性能提升10到100倍。
-
全链路数据编排 Aloudata AIR Engine可基于对全域数据集定义和用户查询行为的解析,构建全局算子图谱,并实现基于代价的投影构建规划,智能识别枢纽节点,构建全局成本最优的关系投影,并自动合并回收关系投影存储、下线低收益预计算任务和存储,获得比传统ETL方案至少30%的成本节约以及更快的数据时效。
-
零运维数据更新 Aloudata AIR Engine可基于上游数据变更和数据集定义变更,自动对关系投影进行更新,而无需用户手动创建和触发ETL任务。通过上游数据更新事件触发或对元数据的变更监听,Aloudata AIR Engine可自动推断增量变更的分区,完成下游数据增量更新,免除业务人员对数据更新的关注。
-
标准化协议接入 数据虚拟化的最终产出是将准备好的数据发布出去,以供下游消费。Aloudata AIR Engine为消费应用程序提供了单点接入方式,通过JDBC、ODBC和大规模数据传输友好的Arrow Flight等标准协议,用户可以在熟悉的工具产品中直接通过标准SQL方便快捷的查询用户发布的数据集,而无需改变工作习惯。
-
精细化安全管控 Aloudata AIR Engine提供了统一且精细的数据安全管控能力,以保障业务自助用数的安全性,包括基于数据空间的数据可见性的控制,基于策略的数据访问权限控制。
信息架构与概念
Aloudata AIR 基于云原生的系统架构,为使用者提供便捷安全的数据使用环境。本主题介绍 Aloudata AIR 的整体信息架构以及核心概念,让你对 AIR 可以有一个宏观了解。 在主题包含以下内容:
- 用户系统
- 产品模块
- AIR 信息架构
- 概念
用户系统
用户在用户管理系统(CIP)中完成注册登记、身份认证等动作。通过引入,将用户添加至多个 Aloudata AIR 的租户内使用产品。

信息架构
Aloudata AIR 中可以被操作的实体分为两个层级:租户层级和工作区层级。下图描述了核心实体之间的层级关系。

租户
租户是 AIR 中的顶级概念,作为结算对象存在。
每个租户都存在一个唯一的负责人,该负责人是发起租户初始化的用户。
用户需要先从用户系统中注册到租户层级,才可以被授予工作区的使用权限。
Aloudata AIR 为租户层级预置了一些租户角色,它们可以满足日常的访问控制限制,租户级别的角色不支持自定义和修改。
一个租户下可以包含多个工作区,工作区与工作区之间资源隔离,无法互相通信。
工作区
工作区承载 AIR 中所有的数据资产和任务执行。
工作区内主要包含四类实体内容:计算资源、数据空间、数据源和角色。
计算资源与工作区绑定,不同工作区之间的计算资源相互隔离,互不干扰。每个执行任务都会通过路由规则匹配至不同的复杂队列中完成执行。
数据空间是用户数据存放的主要场所,用户分析后的结果都会以视图的形式保存在数据空间内,方便再次使用或共享。
数据源提供了连接外部数据源的能力,分为三种外部数据源:数据库类型的数据源,如 MySQL、Hive;对象存储的数据源,如 DELL ECS、阿里云 OSS;本地文件的上传。数据源内包含了实体表,在 AIR 中,你可以直接分析这些表数据。
在工作区内角色分为两大类:工作区角色和数据角色,工作区角色可以控制用户在当前工作区内的一些功能限制,数据角色控制用户对数据内容的增删改查限制。
在数据空间、数据源内支持创建关系投影,关系投影是 AIR 中为数据加速的关键能力,关系投影需要与表或视图关联。
概念
介绍 Aloudata AIR 中的重要概念
| 名词 | 英文 | 说明 |
|---|---|---|
| 数据空间 | dataspace | 用于存放视图的空间,等同于数据库的概念。 |
| 数据源 | datasource | 接入的外部数据源,包含关系型数据库、对象存储以及本地文件上传三种类型数据源。 |
| 视图 | view | 通过 SQL 逻辑生成的虚拟表,视图主要负责用来做数据的共享。 |
| 表 | table | 外部数据源中的内容为表,关系型数据库和本地文件上传的源中,表是通过文件叠加读取格式转换生成的。 |
| 文件 | file | 在对象存储和文件上传数据源中的内容。 |
| 关系投影 | relational projection (RP) | 关系投影被用于 AIR 中的查询加速,针对明细和聚合两种查询模式,AIR 提供明细投影和聚合投影两种类型的关系投影。 |
| 角色 | role | 工作区级别生效的用户角色。工作区角色管控工作区级别的资源权限,数据角色管控工作区内的数据资产的权限。 |
| 资源组 | cluster | 在不同工作区内可以分配不同的资源组。 |
| 负载队列 | workload | 任务通过负载队列分配计算资源,使用分配的计算资源完成任务执行。 |
| 路由规则 | routing rule | 根据查询内容以及上下文配置路由规则,可以将不同的查询推送至不同的负载队列执行,从而实现计算资源的逻辑隔离。 |