本页内容
1、如何删除工厂里面设置的多余的模板? #
答:工厂页面右上方名字–个人管理–模板管理,可对模板进行删除或共享
2、数据源合并时,会进行去重吗 #
答:合并时不会自动去重,需要自行用去重算法,并另存为新的数据源
3、需要在原数据上更新 #
答:选择输出——原始数据源
4、将作者字段变成可以搜索的内容包含应该跑什么算子? #
答:字段类型转换:转成长文本
5、使用“去重”算子时,除了按单字段比如url去重之外,可以按多个字段吗?如果帖子有更新过互动量(聚合重采过,追加进来),去重时如何保证留下互动量高的那1条? #
答:用“去重”的高级模式,可以添加多个字段(并列相同时,视为帖子重复)。欲保留高互动者,在高级模式中选择“取大”→“总互动量”即可。
6、输入、处理、输出阶段,究竟还要等多久?如何查看进度? #
答:从XDP进入“数据处理”的“作业开发”框,打开任务流的作业日志,可以实时查看进度
7、高级版结果都糅杂在一个字段里,如何拆分? #
答:改成普通版重跑,或者使用json提取算子
8、数据导出后,为什么字段名会加了一串数字前缀? #
答:高级设置-输出信息-字段前缀”删除所有“(希望不需要默认前缀)
9、工厂中选择去重后,为什么数据量没有变化? #
答:涉及数据量变少的算子,如去重、过滤等,需要输出到新的数据源才有效