我正在使用Python Cassandra Cqlengine扩展。我创建了多到多个表,但在user_applications模型查询过滤过程中收到了错误。我为这个问题提供了不同的资源,但我并没有完全理解这个问题。
Is ALLOW FILTERING in Cassandra for following query efficient?
数据库模型:
class UserApplications(BaseModel):
__table_name__ = "user_applications"
user_id = columns.UUID(required=True, primary_key=True, index=True)
application_id = columns.UUID(required=True, primary_key=True, index=True)
membership_id = columns.UUID(required=True, primary_key=True, index=True)错误信息:
无法执行此查询,因为它可能涉及数据筛选,因此可能具有不可预测的性能。如果要在性能不可预测性的情况下执行此查询,请使用“允许筛选”
Python CQLEngine代码:
q = UserApplications.filter(membership_id=r.membership_id,
user_id=r.user_id,
application_id=r.application_id)CQLEngine SQL语句:
SELECT "id", "status", "created_date", "update_date" FROM db.user_applications WHERE "membership_id" = %(0)s AND "user_id" = %(1)s AND "application_id" = %(2)s LIMIT 10000描述表的结果:
CREATE TABLE db.user_applications (
id uuid,
user_id uuid,
application_id uuid,
membership_id uuid,
created_date timestamp,
status int,
update_date timestamp,
PRIMARY KEY (id, user_id, application_id, membership_id)
) WITH CLUSTERING ORDER BY (user_id ASC, application_id ASC, membership_id ASC)
AND bloom_filter_fp_chance = 0.01
AND caching = {'keys': 'ALL', 'rows_per_partition': 'NONE'}
AND comment = ''
AND compaction = {'class': 'org.apache.cassandra.db.compaction.SizeTieredCompactionStrategy', 'max_threshold': '32', 'min_threshold': '4'}
AND compression = {'chunk_length_in_kb': '64', 'class': 'org.apache.cassandra.io.compress.LZ4Compressor'}
AND crc_check_chance = 1.0
AND dclocal_read_repair_chance = 0.1
AND default_time_to_live = 0
AND gc_grace_seconds = 864000
AND max_index_interval = 2048
AND memtable_flush_period_in_ms = 0
AND min_index_interval = 128
AND read_repair_chance = 0.0
AND speculative_retry = '99PERCENTILE';
CREATE INDEX user_applications_membership_id_idx ON db.user_applications (membership_id);等着你的帮助。
发布于 2018-08-06 11:26:13
您之所以会出现此错误,是因为您没有向查询中添加ALLOW FILTERING标志,如果将ALLOW FILTERING添加到查询的末尾,则应该可以工作。
在Cassandra查询中使用ALLOW FILTERING实际上允许cassandra在加载某些行(可能是在加载表中的所有行之后)过滤掉它们。例如,在查询的情况下,Cassandra执行此查询的唯一方法是从表UserApplications中检索所有行,然后筛选出那些没有您要限制的每个列的请求值的行。
使用ALLOW FILTERING可能会产生不可预测的性能结果,而实际性能取决于表中的数据分布。例如,如果您的表包含100万行,其中95%的行具有您指定的列的请求值,则查询仍然是相对有效的,您应该使用允许筛选。另一方面,如果表包含100万行,而只有2行包含所请求的值,则查询效率极低。Cassandra将免费加载999,998行。通常,如果查询需要添加ALLOW FILTERING,那么可能应该重新考虑模式,或者为经常查询的列添加辅助索引。
在您的例子中,我建议将列membership_id、user_id、application_id作为复合分区键。如果这样做,您将不再需要在加载后筛选出任何行,因为三列的值相同的所有行都将驻留在同一个分区(在同一个物理节点中),并且您应该在查询中提供这三个值(您已经在问题中添加的查询中这样做了)。以下是您可以这样做的方法:
CREATE TABLE db.user_applications (
user_id uuid,
application_id uuid,
membership_id uuid,
created_date timestamp,
status int,
update_date timestamp,
PRIMARY KEY ((user_id, application_id, membership_id))
);https://stackoverflow.com/questions/51702419
复制相似问题