数据源-文件系统
支持列表中支持的数据源类型,以HDFS为例
选择数据源类型
数据源页面,点击“新建数据源”按钮,选择HDFS数据源

填写数据源信息
填写文件数据源的数据连接、投影更新信息。

| 内容 | 说明 |
|---|---|
| 数据源名称 | 长度大于3个字符,仅允许字母、数字、下划线开头 |
| 描述(可选) | 数据源的描述信息 |
| 部署方式 | 可以选择本地模式或者高可用模式 |
| nameNode地址 | hdfs的nameNode地址 |
| 端口 | NameNode的RPC端口 |
| rootPath | 读取的hdfs根路径地址 |
| 数据源额外配置信息 | 连接数据源所需的额外配置信息 |
| 周期调度 | 支持按照“小时、日、周、月”配置调度周期 |
| 触发方式 | 支持配置消息触发 |
| 数据周期 | 决定投影的更新是否按照强依赖策略更新 |
| 投影过期时间 | 永不过期:投影数据不会自动过期失效,删除投影需要手动过期删除指定过期时间:指定投影过期时间后,如果到达指定时间投影未更新,投影状态将判断为过期不可用 |
| 数据库目录更新 | 设置数据源的库表自动采集时间 |
| 表详情元数据更新 | 设置表字段的自动更新时间 |
| 保存 | 保存成功后,数据源即添加成功 |
浏览文件目录
当添加成功文件类数据源后,可以通过数据源展开文件系统中的目录及文件,详情如下:

将文件转换成PDS
对于支持的文件 和所有的文件夹,展示转换成 PDS 的图标
支持的文件格式 : csv, excel, json, parquet
支持的文件夹格式: iceberg, parquet
对于文件夹点击转换 PDS 时会尝试推断对应的格式,如果推断不出来将不进行转换。
选中某个文件,点击转为基础视图的图标,进入转PDS界面;
可勾选不同参数,调整解析文件的配置,点击“预览数据”可以实时查看解析结果。

- 格式:必填、单选、枚举值(CSV、EXCEL、JSON、Parquet、ORC、Iceberg)
- 默认值(由引擎自动推荐)
- 分隔符:非必填、单选
- 默认值:逗号(
,) - 枚举值(逗号(
,)、分号(;)、制表符(\t)、自定义)- 自定义:支持输入分隔符
- 编码格式:非必填、单选
- 枚举值:UTF-8、GBK、GB2312
- 自定义:支持输入
- 默认值:UTF-8
- 将文件的第一行作为表头:默认勾选
- 引用中的分隔符不作为分隔标志:默认不勾选
- 以注释符号开头的行将忽略,注释符号限于单个字符(如"#"):默认不勾选
点击“保存”完成转PDS逻辑表的过程,转换后的PDS可当成普通的逻辑表,跟其它的逻辑表进行SQL查询和处理。如下图所示:
PDS逻辑表还原成文件
任何一个通过文件转换成PDS的逻辑表,也可以转换回文件,当转换成文件后,原有的逻辑表即会被删除。
