我需要记录向一系列网站提出的请求。当前的流量为每分钟1000次请求,但这只会增加。
有两种类型的请求,“已知”和“未知”--取决于饼干的存在。
最后,我想以以下形式获得日志:
对于未知数:
对于已知的人:
你的建议是什么来储存这个?
写操作需要非常快,所以我猜只是将所有数据转储到一个原始表中,并定期使用一个单独的进程/线程来解析它。
但是,在删除数据时不锁定表的“解析”原始数据的最佳方法是什么,从而阻止写入?
注:我要求的不是聚合SQL,而是关于如何保持它的快速性的技巧和过程,而不是阻止我没有想到的任何其他东西。
谢谢
发布于 2012-02-10 09:06:13
首先:我读到您正在专门寻找SQL答案。然而,我个人认为,这将不是你正在寻找的解决方案。
像Hadoop这样的系统具有像地图/缩减这样的特性,特别是用来处理这种情况的数据。有各种各样的博客文章见。
Hadoop与日志文件分析还是这个用Hadoop进行日志分析和事件报告
一些优点:
如果您坚持使用SQL数据库,您将在以下问题中运行:
https://stackoverflow.com/questions/9225021
复制相似问题