任务权限分配 #
对于一个项目下的标注任务,可分为两类用户:管理人员和标注人员,分别对应空间的管理员和角色。
管理人员拥有权限:
任务创建、标注人员任务分配、标注轮次创建、完成标注、修改标注、标注结果检查、标注修改情况追踪、模型训练、模型发布等完整权限。
标注人员拥有权限:
仅有查看标注任务、完成标注任务、修改标注结果的权限。
标注任务创建 #
创建任务 #
在进行标注工作之前,管理人员需要先创建标注任务。在【数据智能-标注系统-标注任务】页面,点击新建任务。
可以对已建任务进行任务参数编辑、删除任务和移动任务。
任务参数说明 #
情感分类标注 #
- 任务名称:用于填写算法或者标注任务的名称。
- 标注类型:目前标注类型有 8种,用户可以根据不同的需求来选择。
- 备注:用户填写任务备注信息。
- 目标一致度:用于衡量标注任务的质量,是多个人共同标注一条数据的一致度。一致率越高,标注任务的质量就越高。此参数用于系统判断标注结果是否接受。
- 每轮条数:标注任务会拆解成若干个标注轮次。此处用于记录每轮标注的数据数量。
- 重复率第一轮:第一轮标注数据的重复率。标注过程中,建议抽取一部分数据进行重复标注,以得出一致度来评估标注质量。可以设置为 0
- 其他轮次:和重复率第一轮一样,只是此重复率用于第二轮及以后的轮次。一般实际标注过程中,第一轮的重复率建议设置高一些。
- 最大标注人数:一条数据最多可以被多少人重复标注。最低需要设置成 1。
- 人员设置:设置范围是当前任务所属空间用户列表下的所有用户。固定人员标注是指有固定的标注人员,根据具体的人员和比例分配标注任务。所有人员标注类似外包模式,所有有权限的人均可标注此任务。
情感分类标注需要填写的参数是基本参数,自定义文本分类标注、实体关系标注、图像、视频标注会有更多额外的填写项,下面补充说明。
自定义文本分类标注 #
自定义分本分类标注需要额外输出答案,答案是指标注人员可选的答案选项。例如我要把文本分成新闻、论坛两大类,则需要在答案输入新闻、论坛。通过回车键进行输入。答案可以设置多个。
实体关系标注 #
实体关系标注类型:有自定义实体关系标注和三元组实体关系标注两种分类。三元组下的实体设置默认为情感词和特征词。
- 项目:当前账号下的空间
- 任务:所选空间下的已创建的实体标注任务,确认导入后,新任务将复用它的实体设置信息
- 实体设置:实体类别选项设置,标注工作中只能选择在这里设置里的实体类别。
- 实体属性设置:实体的属性设置,包括实体1、问题、答案、层级答案四个填充项。实体1选择范围是实体设置中的实体;问题填充项支持输入判断实体属性的问题;答案是关于问题的回答,多个答案用逗号分隔;层级答案是答案的高级版本,针对答案很多的时候可以利用层级答案来进行优化。
实体关系问题:包括实体1、实体2、问题、答案、层级答案四个填充项。标注工作中需要先选择实体后选择实体2,才能建立实体关系。
图像标注 #
分类标注与OCR需要填写实体设置、实体属性设置。
物体识别需要填写实体设置、实体属性设置、实体关系设置。
绑定数据源 #
在开展标注工作前,需要先给任务绑定标注数据源。
进入任务管理页面,点击页面上的添加按钮,根据提示进行数据源的上传操作。如果数据源之前没有在项目中被使用过,需要选择新数据源上传,否则可以选择已有数据源。同一个任务可以添加多个数据源。
目前分类标注和实体标注任务仅支持 CSV 格式文件,图像标注任务支持上传zip压缩包,其中图片格式支持JPG、JPEG、PNG。
上传后会进入数据预览界面,可以更改数据源名称,绑定对应的字段映射关系。绑定后点击提交即可完成绑定。
字段说明
- 关键字:标注过程中,命中关键词的内容会高亮显示,关键字和关键字之间用“|”分割。
- 答案:作为答案直接上传到系统,不参与标注,只参与后续训练。
- 预标注答案:预标注答案是指在标注时,提前先给一个初始答案,让用户确认,如果对可以直接提交,否则修改。
实体关系预标注数据有一定的格式要求,必须是一个json:
例子:
原文:昨天接到一个骗子的电话,说床单染料超标,睡了身上发痒,要我按她说的一步一步的做,说双倍退还,说到银行卡时,我就绝得不对,差点被骗。因为我的信息全都是对的, 希望店家要把我们的信息保管好。
预标注答案 :
{"nodes":[{"end_index":19,"id":1,"num_index":1,"start_index":15,"text":" 染料超标","text_index":1,"type":"特征词"}],"relations":[{"node1":1,"relation_type":" 情 感 极 性 ","relation_value":" 负 面 "},{"node1":1,"relation_type":" 维 度 ","relation_value":"品质"}]}
Nodes 指的是实体,id 为自增 ID,主要用于后续关系判断时的 node 声明,start_index对应起始下标(从0开始,),end_index 对应结束下标,num_index 可不填,text_index 为该词语在文本中第 X 次出现,type 为词性或标注类型。 Relation 指的是关系,多个 node 通过自增 ID 判断,relation_type 对应问题, relation_value 对应答案。
情感分类的预标注答案 为 -1:负面,0:中性,1:正面
自定义分类的预标注答案为具体的标注结果(如任务设置了:优,良,中,差,则答案为这四个其中一个)
数据源上传过程中样式:
数据源上传成功样式:
右键点击已经绑定的数据源,点击删除按钮。