我正在建立一个在网站(tmz,people等)上对名人相关内容进行索引的项目,因为我一直认为“押注”在人们身上(也许还有节目、导演等)会很有趣,比如赛马或股票市场--你知道,不是用真正的钱--在那里,人的价值日复一日、时时刻刻、甚至每分钟都在变化--如果我们能搞清楚这一点,堆叠溢出的谴责声。
我根据社交媒体中提到的内容为用户分配流量值。我有一些刮刀器(可能违反了一些TOSes)和访问Twitter的API来获得搜索结果的相对计数一段时间,所以我知道“数字”在elasticsearch之外与w/用户关联一段时间来建立趋势。现在要说明的是,我并不是根据系统中的文档数量来实现趋势,这实际上保持了相当的一致性,但我需要根据趋势对已经存在的文档进行排序。
这就是我所得到的:几十万篇与名人有着预先确定的联系的文章。每一篇文章都有一些相关的分数,所以每一篇文章都有一些相关的分数(这并不重要,但底线是,我有10个左右的值,当你出现在市场页面上的时候,我想为它排序,我想对这些函数或脚本分数进行排序)。
那么问题是:我如何在不让elasticsearch疯狂地重新索引的情况下分配这些值呢?我需要使用这些值来对来自站点上的提要的几十个请求进行每秒排序,但是我在一个raspberry pi上运行这个.从字面上讲,我已经把那可怜的东西弄得形影不离了。
我们确实写得很重,但如果出于某种原因,名人股票市场起飞了,那么我们的阅读量也很大。我发誓我记得有一个与内容相关的元数据的插件,但是我找不到它。
我已经尝试过enable=false和index=false,但它们在编写更新时似乎仍然会占用读取时间。最好的方法是放慢refresh_interval的速度,但这仍然相当昂贵,并开始影响应用程序的“实时”特性。
发布于 2022-08-16 19:12:12
我相信这是不可能的,因为你已经说出来了。对字段的任何更新都将更新_source并启动整个更新过程。
您可能会考虑以下几种选择:
https://stackoverflow.com/questions/73367866
复制相似问题