首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从纯文本中提取结构化数据

从纯文本中提取结构化数据
EN

Stack Overflow用户
提问于 2012-01-06 00:28:02
回答 5查看 2.1K关注 0票数 0

在输入时,我有一个纯文本(在我的例子中通常是HTML)和一个“语法规范”(从纯文本中提取数据到结构化数据的某种方法),然后在输出时,我需要一些结构化数据(JSON可以,但也许有更好的东西?)

是否有用于此任务的库?什么是指定“语法规范”的好方法?解决这类问题的最佳方法是什么?

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2012-01-06 00:35:38

基于语法的转换的一些工具:

  • TXL http://www.txl.ca/
  • Stratego/XT http://strategoxt.org/
  • ASF+SDF http://www.meta-environment.org/

添加:

  • FPP (http://jffp.sourceforge.net/)是一个用Java语言编写的平面文件解析库,如果输入文件只是HTML (http://jsoup.org/)是一个Java解析器
  • http://htmlparser.sourceforge.net/或<
  • >C20http://jsoup.org/>或jsoup
票数 2
EN

Stack Overflow用户

发布于 2012-01-06 00:41:23

看一下用于HTML解析的jsoup和用于Java to JSON的gson

票数 0
EN

Stack Overflow用户

发布于 2012-01-06 00:42:32

要解析HTML,您将需要一个DOM解析器,根据html代码的质量,DOM解析器可以使用您的语法规范来解析它,然后您将需要提供一种您想要的数据结构类型,并且有库可以为您完成这些工作

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8745989

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档