我想从社区中听到一个很好的模式来解决下面的问题。
我有一个“无所不包”的服务器,它是were服务器,mysql,爬虫服务器。由于使用监视工具的两三周时间,我发现当我的爬虫运行时,我的平均负载总是超过5(一个4核心服务器,可以一直使用到4.00作为负载)。所以,我有另一台服务器,我想把我的爬虫移到那里。我的问题是。一旦我在我的爬虫服务器中爬行数据,我必须插入我的数据库。我不想打开远程连接并将其插入数据库中,因为我更喜欢使用Rails框架,顺便说一句,我使用rails,以便更容易地创建所有关系,等等。
有待解决的问题:
服务器,有爬行的数据(一堆csv文件),我希望将它移动到远程服务器,并使用rails将其插入到我的db中。
限制:我不想运行mysql (从+主),因为它需要更深入的分析才能知道哪里会发生更多的写操作。
想法:
。
围绕这个主题还有其他的想法或好的模式吗?
发布于 2011-05-02 00:43:55
与第二种模式略有不同,您已经注意到,您可以在web应用服务器/db-服务器中使用API。爬虫将用来报告他的数据。他可以分批、实时或仅在特定的时间窗口(白天/夜晚time...etc)完成这一任务。
此模式将让爬虫决定何时在数据中报告。而不是让网络应用对数据进行“轮询”。
https://stackoverflow.com/questions/5851830
复制相似问题