我是否应该对域名进行规范化,以拆分域名、子域、tld?我将每秒添加大约100个域/子域,并每秒查询大约500个域/子域。
我有一个计划,在那里我可以为tlds http://data.iana.org/TLD/tlds-alpha-by-domain.txt安排桌子。
我可以有另一个域名表和另一个子域表
事实是,我有一个在线网站的正常运行时间服务,我想拥有所有可能的域名的正常运行时间,每天检查大约100个每秒,并爬行网络,以找到更多。
最好的结构是什么?
发布于 2012-06-21 02:50:14
我会使用完全准确的主机名(例如,www.stackoverflow.com和stackoverflow.com是不同的)。对于某些站点,两个特定的主机名可能是等价的,但对于另一些站点则不是。我也看不出跟踪TLD有什么用处(特别是在即将到来的TLD爆炸之后)。
我明白你为什么要按域对其进行分类,但请记住,两个不同的页面(http://example.com/store和http://example.com/wiki)可以设置为完全不同的页面(例如,不同的编程语言和数据库),因此一个页面很容易出现故障,而另一个页面运行良好。用户将需要基于每个URL的此信息。
发布于 2012-06-21 02:59:11
如果你只存储完整的主机名,似乎很难运行有效的查询,例如*.stackoverflow.com。子字符串匹配将不能利用字段上的任何索引。另一方面,存储完整的字符串更容易,效率较低的查询可能在很长一段时间内都不是问题。
https://stackoverflow.com/questions/11126135
复制相似问题