跳转至

数据源-文件系统

支持列表中支持的数据源类型,以HDFS为例

选择数据源类型

数据源页面,点击“新建数据源”按钮,选择HDFS数据源 数据源-文件系统_image_1.png

填写数据源信息

填写文件数据源的数据连接、投影更新信息。 数据源-文件系统_image_2.png 数据源-文件系统_image_3.png

内容 说明
数据源名称 长度大于3个字符,仅允许字母、数字、下划线开头
描述(可选) 数据源的描述信息
部署方式 可以选择本地模式或者高可用模式
nameNode地址 hdfs的nameNode地址
端口 NameNode的RPC端口
rootPath 读取的hdfs根路径地址
数据源额外配置信息 连接数据源所需的额外配置信息
周期调度 支持按照“小时、日、周、月”配置调度周期
触发方式 支持配置消息触发
数据周期 决定投影的更新是否按照强依赖策略更新
投影过期时间 永不过期:投影数据不会自动过期失效,删除投影需要手动过期删除指定过期时间:指定投影过期时间后,如果到达指定时间投影未更新,投影状态将判断为过期不可用
数据库目录更新 设置数据源的库表自动采集时间
表详情元数据更新 设置表字段的自动更新时间
保存 保存成功后,数据源即添加成功

浏览文件目录

当添加成功文件类数据源后,可以通过数据源展开文件系统中的目录及文件,详情如下: 数据源-文件系统_image_4.png

将文件转换成PDS

对于支持的文件 和所有的文件夹,展示转换成 PDS 的图标 支持的文件格式 : csv, excel, json, parquet 支持的文件夹格式: iceberg, parquet 对于文件夹点击转换 PDS 时会尝试推断对应的格式,如果推断不出来将不进行转换。 选中某个文件,点击转为基础视图的图标,进入转PDS界面; 数据源-文件系统_image_5.png 可勾选不同参数,调整解析文件的配置,点击“预览数据”可以实时查看解析结果。 数据源-文件系统_image_6.png

  • 格式:必填、单选、枚举值(CSV、EXCEL、JSON、Parquet、ORC、Iceberg)
  • 默认值(由引擎自动推荐)
  • 分隔符:非必填、单选
  • 默认值:逗号(,
  • 枚举值(逗号(,)、分号(;)、制表符(\t)、自定义)
    • 自定义:支持输入分隔符
  • 编码格式:非必填、单选
  • 枚举值:UTF-8、GBK、GB2312
    • 自定义:支持输入
  • 默认值:UTF-8
  • 将文件的第一行作为表头:默认勾选
  • 引用中的分隔符不作为分隔标志:默认不勾选
  • 以注释符号开头的行将忽略,注释符号限于单个字符(如"#"):默认不勾选

点击“保存”完成转PDS逻辑表的过程,转换后的PDS可当成普通的逻辑表,跟其它的逻辑表进行SQL查询和处理。如下图所示:

PDS逻辑表还原成文件

任何一个通过文件转换成PDS的逻辑表,也可以转换回文件,当转换成文件后,原有的逻辑表即会被删除。 数据源-文件系统_image_8.png