本页内容
1、请问我笔记过滤数据能直接输出到源文件吗?似乎输出条数是一样的。所以我聚合采回来的数据,只用 数据源筛选器筛选 不进行 去重、过滤、替换的算法,是可以写回数据源踢掉我不要的数据的吗? #
答:集群状态不稳定 你看下输出到其他集群,若数据量不大就文件
输出回原始数据源,即处理后的数据直接写回当前的数据源,但为安全起见,若数据源是本地上传的,或者有使用去重、过滤、替换中的任意一个算法,不支持写回原始数据。 筛选是可以输出到原始数据源的
2、为啥有些账号需要输入ES节点,有些不用的? #
答:用了复用配置就不用输,没用复用的就要输入。
3、为什么我对url进行去重了,数据源里还是有重复的数据呀? #
答:输出回原始数据源,即处理后的数据直接写回当前的数据源,但为安全起见,若数据源是本地上传的,或者有使用去重、过滤、替换中的任意一个算法,不支持写回原始数据。 筛选是可以输出到原始数据源的
4、关于正则表达式——聚合搜索那里:正则表达式不能用,能用;工场那里:正则表达式能用,不能用;是这样的情况吗? #
答:~20 这类语法 方舟不支持哈,支持如图
5、我在方舟透视表筛选了十几个源微博用户id,当行字段加上用户名就只能透视出来3个用户,这是为啥呀? #
可不可以这么理解,筛选是有层级关系的,只能先放筛选条件? #
答:两个差别的原因是,当把源微博用户名放第一个的时候,是先按照微博用户名统计,然后取了top1500,这top1500中返回的用户名只有3个的uid是在筛选项中那11个钟;
如果把源微博id放到第一个,是会按照微博id先统计,因为有指定筛选项,所以返回了指定的11的uid后,再去对微博用户名做统计,就多出几个
可以把微博用户id加到筛选器中认证一下
最好是这样,如果要配置筛选条件的话