-
请求示例,以HDFS为例子
curl -XPOST -H 'Content-Type: application/json' \ -H 'Authorization: your token here' \ -d '{ "inputFileSystemInfo": { "fileSystemType": "HDFS", "port": "your_hdfs_namenode_httpserver_port", "userName": "your_hdfs_userName", "host": "your_hdfs_namenode_httpserver_host", "spareHost": "your_hdfs_SecondaryNameNode_host", "inputPath": "your_input_file_path" }, "outputFileSystemInfo": { "fileSystemType": "HDFS" "port": "your_hdfs_namenode_httpserver_port", "userName": "your_hdfs_userName", "host": "your_hdfs_namenode_httpserver_host", "spareHost": "your_hdfs_SecondaryNameNode_host", "outputPath": "your_output_path_here" }, "mailAddress": "your email here" }' https://open.datastory.com.cn/api/algorithm/asr/add
-
请求说明
- 请求头Authorization的token请联系算法平台同事提供
- inputFileSystemInfo、outputFileSystemInfo为输入输出文件的信息
- fileSystemType:填HDFS,如需其他类型的文件作为输入输出系统,请联系算法平台同事
- inputPath:输入文件的路径
- outputPath:输出文件夹的路径
-
mailAddress:邮箱地址。用于接收任务状态的邮件,当任务异常、任务被取消会以邮件的形式发送到该邮箱地址。
- 输入文件是一个csv,id为业务Id,url为需要识别的视频地址,下载查看示例文件https://oss.datastory.com.cn/scavenger/asr_test_2/example.csv
- 返回结果:算法任务id,凭此id查询任务状态
- 结果文件名为【video_txt.json】,每一行表示一个视频的解析结果,每一行的示例及说明如下:
示例: {"id": "3xkid65u63easfw.mp4", "result": "{\"subtitle_flag\": -1, \"text\": \"来吧展示。总是梦梦宅千百万事要。哎有事就想不开今后火算离开一头回波。生安为男人回瑰本夜。世界人我的抓分沉抓翻沉稳人是人了别是给我占友还说放厕火人。桃花爱刷头花爱说家人定我。\", \"subtitle_time_interval\": [[], [], []], \"huazi\": \"\", \"huazi_time_interval\": [[], [], []], \"MultimodalVideoTag\": [[\"其他视频类型\", \"情景剧-单人情景剧\", \"母婴用品\", \"no\"], [0.44218122959136963, 0.2897908389568329, 0.39443475008010864, 0.8961179852485657]]}"} 说明: subtitle_flag:0代表text和huazi部分都是OCR从视频帧中识别,不进行ASR语音识别;-1代表OCR未能定位到字幕位置,所以OCR部分统一归为花字;text结果为ASR识别的结果。 text:代表视频的语音/字幕 subtitle_time_interval:为3*n的二维数组,其中第一个数组代表文本的开始时间,第二个数组代表文本的结束时间,第三个数组代表文本的停止index huazi:代表视频中非字幕部分的文本 huazi_time_interval:同subtitle_time_interval字段类似,指向的字符串为huazi MultimodalVideoTag:多模态视频分类,从左到右分别为:展示形式(一级)、展示形式(二级)、行业分类、 是否营销。第二个数组的数字表示分类的置信度 ----------------------- 常见情况: subtitle_flag=0且text为空,表示下载视频文件失败 subtitle_flag=-1且text为空,表示识别不出结果