我正在使用Splunk来分析SFGov开放数据(data.sfgov.org),这是一个苏格拉塔系统。
我可以下载json的数据和分析的东西离线。我现在正在实现数据集更新的自动索引(每天)。
我试图找出自上一次投票以来,实际要使用哪些苏格拉塔API字段来获得新的记录。
我知道我可以使用$where URL选项再次过滤:created_at和:updated_at参数,但是是否存在rowID或最后一个索引之类的东西?我将在最后一次抓取的行的splunk端维护本地状态。
就像我昨晚得到的最后一行是18104,那么我会要求贴出> 18104行的行。
提前感谢!我正在使用python实现自动化。
-加上2016年2月11日
目前,我正在手动测试这种GET (使用hurl.it进行测试)。
https://data.sfgov.org/resource/nwsr-z4mh.json?$where=:created_at在“2016-10-23T18:00:00”和“2016-11-03T00:00:00”和$order=:created_at DESC&$select=:*,*
所以,如果我要把它放到python中,我需要简单地保存上一个获取日期-时间,并做一个‘介于和希望得到最新创建的记录。
我更喜欢一种引用ROW#的方法,但我不知道如何使用id":"row-8aiu.d5x4~8rdi“参数。
发布于 2016-11-03 01:20:32
看来你已经做了正确的事了。您只需要保存最新的:created_at或:updated_at,并将其用于您的$where中进行以下查询。
不能执行$where=:updated_at > :row-...,因为行ID是标识符,而不是日期时间。
https://stackoverflow.com/questions/40370699
复制相似问题