首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >读取SGML文件的Java代码

读取SGML文件的Java代码
EN

Stack Overflow用户
提问于 2011-02-25 13:49:57
回答 3查看 2.8K关注 0票数 1

我正在做我的文本分类项目,我为我的信息检索项目准备了一个名为路透社-21578的文本分类测试集。它分布在22个文件中。前21个文件(reut2-000.sgm到reut2-020.sgm)中的每个文件包含1000个文档,而最后一个(reut2-021.sgm)包含578个文档。这些文件是SGML格式的。这22个文件中的每个文件都以一个文档类型声明行开头: DTD文件lewis.dtd包含在发行版中。文档类型声明行后面是用SGML标记标记的个别路透社文章。

我需要帮助写一个java程序,以读取这21578个文件或转换成21578个独立的文本文件。

有人能帮我吗?

EN

回答 3

Stack Overflow用户

发布于 2011-02-25 18:59:29

从大约五分钟的谷歌搜索来看,似乎还没有针对Java的免费SGML解析器。这是相当令人惊讶的,但这就对了。

我建议您从SP包中获得James Clark的SX工具,并使用它将SP转换为portable C。然后,您可以使用Java XML解析器解析XML。

票数 1
EN

Stack Overflow用户

发布于 2015-10-12 23:07:33

Lucene在org.apache.lucene.benchmark.utils.ExtractReuters;中就有这样一个提取器

我实际上并没有尝试从jar文件(Maven repo)中运行它,但是您可以很容易地使用(和修改) here中的java源代码,因为它没有外部依赖项。

请注意,此代码导出大量小文件(实际为21578个)。

票数 1
EN

Stack Overflow用户

发布于 2017-09-20 14:49:57

虽然这是非常古老的帖子,但我的答案是给未来有需要的人,因为在用这种方式做之前,我努力了很多。我不能说这是一种合适的方法或很好的解决方案,但它达到了目的,并在过去的6个月中连续运行,进行批处理。我编写了一些自定义代码来读取和解析SGML文件,它甚至成功地完成了退出大文件的工作。尽管输出格式与我的示例中所需的结构不同。你可以看一看,如果它看起来有用,你可以做一些调整来利用它。请看一下here

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5114076

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档