我正在开发一个网络爬虫,抓取网上商店,并找到产品。目前我只存储最近找到的单个价格,但我也想存储历史记录。我在主数据库中使用带有InnoDB表的MariaDB (5.3.8)。
然而,我不确定MariaDB/MySQL可能是最好的价格历史数据库。
我每天最多为每个产品节省一个价格,数据保留期大约为2-4年。我的product表将包含大约200万行,这将使价格历史记录的行数在一年内达到约7.3亿行。
我认为这是相当多的。
这些数据需要能够快速访问(可以通过数字ID (产品ID)或SHA1散列值进行标识,无论是更好还是更容易)。
需要保存的数据很简单:
product_id、价格、日期(没有时间!)
处理它的数据库软件将会有很重的负载,因为插入将非常频繁地发生,而选择将同样频繁地发生,如果不是更频繁的话。为了最小化SELECT查询的目的,偶尔将数据聚合到另一个数据库是一种可能性,但我宁愿避免这种情况,以免增加另一层“助手脚本”。
将不会执行任何删除操作。
你有什么建议?
发布于 2013-02-14 19:52:03
对于任何RDBMS来说,这都是一个简单的场景。只是插入到这个有1-2个索引的窄表中是完全没有问题的。每年7.30M行也完全没问题(我想知道数据量有多大--可能是10-20 GB?)。
您应该根据战略考虑进行选择。您已经拥有并使用了哪些RDBMS?你熟悉什么?备份、高可用性又如何呢?
https://stackoverflow.com/questions/14874147
复制相似问题