我正在做一项分析任务,我们从大学图书馆获得了一个包含近300.000.000行的部分数据集。每一行包含:
我将所有这些放在一个MySQL表中,然后开始为我的分析任务查询这个问题,但是简单的查询(SELECT * FROM table WHERE ID = something)需要9-10分钟才能完成。
从Manhout in Action第9-10章,我尝试创建一个定制的lucene分析器。我的分析器是在自己的类中定义的。当我创建JAR时,这个类就存在了。例如,在我的代码中,如果我使用WhitespaceAnalyzer而不是我的分析器,我就没有问题。这是我的分析器类
public final StandardAnalyzer stdAnalyzer