数据源 #
- 本文将为您介绍数据管理模块中的最重要的部分:数据源的功能概述、新建(数据源、数据视图和文件夹)、数据源列表、数据源信息概览和快速处理操作。
功能概述 #
-
在新建完工作空间后,我们就会进入到数据管理模块的数据源界面,在这里您将接入即将开始处理的数据源,开启数说XDP数据探索旅程。
-
数说XDP的数据源模块支持10余种异构数据源的接入,支持批量数据接入、实时数据集成和数据库实时同步,基本覆盖当前市面上常用的数据库类型;
-
与此同时,当接入完对应数据源后,还支持您查看该数据源概览信息,包括数据字段预览、字段设置、连接配置、关联关系、数据开发的历史记录和ETL工作流列表数据源相关信息;支持基于可视化页面进行多源异构数据的行/列追加和映射,在单个流程中解决不同来源数据的融合工作,省时省力。
- 最后,在数据源预览页面,也可以快速地进行数据开发和数据分析工作,点击相应的数据开发类型和数据分析类型,便可以基于改数据源快速开始相应的开发分析工作了。
新建 #
- 点击新建按钮,您将可以选择
新建数据源
、新建数据视图
和新建文件夹
,新建文件夹的功能可以方便您进行文件路径管理,接下来将详细的说明一下新建数据源和数据视图的功能。
新建数据源 #
- 在点击
新建
按钮的选项列表中,选择新建数据源
打开新增数据源页面,您可以选择本地上传、导入已有数据源、非关系型数据库(elastic、mongoDB)、关系型数据库(MySQL、SQLServer、Oracle)、大数据引擎(Hive、presto)、消息队列(kafka)和第三方授权(微信)7种一级类型的数据导入。
- 数说XDP当前已经支持的数据源类型如下表所示,同时系统也支持自定义数据源类型接入,可以根据用户的需求快速扩展所需数据源类型。
数据源分类 | 数据源 | 读取 | 写入 | 说明 |
---|---|---|---|---|
本地上传 | CSV | 支持 | 支持 | 每个文件不超过200M |
导入已有数据源 | – | 支持 | 不支持 | – |
非关系型数据库 | ElasticSearch | 支持 | 支持 | – |
非关系型数据库 | MongoDB | 支持 | 支持 | – |
关系型数据库 | MySQL | 支持 | 支持 | – |
关系型数据库 | SQLServer | 支持 | 支持 | – |
关系型数据库 | Oracle | 支持 | 支持 | – |
大数据引擎 | Hive | 支持 | 支持 | – |
大数据引擎 | Kylin | 支持 | 支持 | – |
大数据引擎 | Presto | 支持 | 支持 | – |
消息队列 | Kafka | 支持 | 支持 | – |
第三方授权 | 微信 | 支持 | 支持 | – |
- 如下图所示,当您选择接入的数据源类型后,只需要键入数据源相应的URL链接信息,即可完成相应数据源的接入。
新建数据视图 #
- 在点击
新建
按钮的选项列表中,选择新建数据视图
打开新增数据视图页面,您可以选择若干个关系型数据表的来新建数据视图。支持最多7个数据源相互关联,可以选择的表与表、表与视图、视图与视图之间的内联、左联和右联。
注意:被关联的关系型数据表必须在同一个database。
新建数据视图的本质是执行create view语句,所以只对于关系型数据库有效。此外,在某些情况下创建数据视图会失败,失败的情形包括:
1. 连接数据库的用户账号不具备create view权限;
2. 数据库中已经存在同名的视图;
3. 其他可能导致关系型数据库引擎执行create view语句失败的情形;
数据源列表 #
-
当您成功接入完数据源后,便可以在数据源页面中查看到您所接入的数据源了,同时数说XDP支持对列表项进行基本操作:
- 文件夹的编辑、移动、删除;
- 数据源的名称、描述、移动、删除和下载等操作。
- 当工作空间接入的数据源比较多的时候,为了帮您快速定位到目标数据源,还提供了以下基本功能:
- 快速数据分类筛选:分别为全部、本地上传、非关系型数据库、关系型数据库、大数据引擎、消息队列和第三方授权;
- 排序功能:分别为默认排序、创建时间、编辑时间、文件名和编辑者排序;
- 快速搜索功能。
Tips:当数说XDP在接入用户数据源的时候,会需要相应处理时间,请您耐心等候。同时我们也在数据源名称前设置了数据源的状态信息,方便您对该数据源的情况进行直观判断。
状态标识 | 状态说明 | 备注 |
---|---|---|
● |
数据加载中 | 请您耐心等候 |
● |
数据源状态良好 | – |
● |
数据源状态不佳 | 可通过字段设置进行优化 |
● |
数据源出现严重问题,几乎无法访问 | – |
● |
数据源无法访问 | 查看是否有权限 |
数据源信息概览 #
- 当接入数据源已经完成加载后,双击相应的数据源便可以对该数据源进行信息预览,分别提供数据预览、关联关系、字段设置、连接配置、历史记录和ETL工作流列表的功能,可以查看与该数据源相关的各种信息,同时提供数据开发和数据分析的快速入口。
以下列表提供了各个数据源信息概览功能的详细说明:
功能 | 功能描述 | 备注 |
---|---|---|
数据预览 | 对前1000条数据进行预览 | 基本功能 |
字段设置 | 对字段别名、描述进行设置(支持CSV上传)、新建分组 | 基本功能 |
连接配置 | 配置数据源访问过程中的数据路由 | 基本功能 |
关联关系 | 显示数据源相关的数据服务API/数据应用信息 | 需要开通数据服务或数据应用的相关功能权限 |
历史纪录 | 数据源相关ETL的历史任务 | 需要开通数据开发的相关功能权限 |
ETL工作流列表 | 数据源相关ETL的历史工作流列表 | 需要开通数据开发的相关功能权限 |
数据开发和数据分析的快速入口 #
- 最后,在数据源信息概览界面,您也可以通过直接数据开发和数据分析的快速入口,直接基于该数据源快速进行数据开发或者数据分析操作(前提您已经开通数据开发或数据分析的相关功能权限)。