我在理解下面这行代码时遇到了问题:
在text.txt上创建哈希索引,将ids作为关键字,将全文记录作为数据。
text.txt
000000010:<status> <id>000000010</id> <created_at>2012/03/11</created_at> <text>@joerogan Played as Joe Savage Rogan in Undisputed3 Career mode, won Pride GP, got UFC title shot against Shields, lost 3 times, and retired</text> <retweet_count>0</retweet_count> <user> <name>Siggi Eggertsson</name> <location>Berlin, Germany</location> <description></description> <url>http://www.siggieggertsson.com</url> </user> </status>
000000011:<status> <id>000000011</id> <created_at>2012/03/11</created_at> <text>Cat and Metronome: http://t.co/3Z7Aq8Dn</text> <retweet_count>3</retweet_count> <user> <name>Siggi Eggertsson</name> <location>Berlin, Germany</location> <description></description> <url>http://www.siggieggertsson.com</url> </user> </status>
...我不知道我应该做什么。
我是否应该创建另一个txt文件来存储散列索引?看起来id对于每一行都是唯一的,在这种情况下我甚至不需要散列。我能用db_load命令做到这一点吗?
提前感谢您的帮助!
发布于 2012-03-28 10:11:49
索引的目的是加快对一组数据的查找。因此,在这种情况下,我希望能够使用您的索引快速查找文本文件中的记录。假设索引由一个元组组成,该元组由记录id以及相应记录开始的文件中的偏移量组成。
最好将索引存储在单独的文件中-您可以为其指定一个与被索引的文件相匹配的名称(例如text.idx)。
https://stackoverflow.com/questions/9900182
复制相似问题