搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

用MongoDB实现PDF、word和文本文档的信息抽取、索引和检索

MongoDB是否有一个功能，我可以存储PDF、文本或. do /docx文档并搜索它们，或者在它们的内容中找到一个关键字，在两个文档之间进行匹配？例如：诊断代码，简短的描述，日期和数量。我想发出查询，在那里我可以找到任何具有匹配日期和相同诊断的文档。(例如“肺炎”，“2012年12月12日”) 如果只使用MongoDB的API就可以这样做，还是需要做一些预处理？如果可能的话，你能给我介绍一下好的例子和文档吗？

浏览 0修改于2013-05-19得票数 3

2回答

什么标记语言通常用于注释信息提取语料库

我正在构建一个信息抽取的语料库，用于提取特定类型的信息，并且我正在努力决定对实体进行注释的最佳方法。由于本文档是在1997年编写的，我猜想使用这种基于SGML的方法已经过时了，因此必须有更好的方法来实现这一点，例如使用OWL、RDF或XML。是否有更新的行业标准来注释信息抽取语料库？

浏览 5提问于2017-05-19得票数 1

回答已采纳

2回答

如何在使用JMeter提取器时忽略XPath中html标记的错误

我成功地在我的XPath测试中添加了一个JMeter抽取器。现在，我收到了JMeter.log中的错误，抱怨我们的网页中有两个html标签。这些标记是由我们创建的，是我们可以在代码中使用的标记。假设这些标签是：下面是JMeter日志信息： 2014/01/29 14:27:18警告- jmeter.util.XPathUtil:整齐错误:行25列4-错误:不识别！InputStream: Doctype给出的是“InputStream:文档内容看起来像HTML4.01过渡性33条警告，发现了2个

浏览 5修改于2014-01-29得票数 0

回答已采纳

1回答

web信息抽取

我想创建一个购物搜索引擎，显示来自许多网站的产品，我想知道如何从这些网站检索有关产品的信息。我对搜索引擎部分不感兴趣，但从网页中自动提取产品信息的方式使用自动生成的模板。

浏览 0修改于2011-07-05得票数 0

1回答

信息抽取->关系

“这部电影太棒了。背景音乐很古怪，灯光也很完美。”电影:令人惊叹的背景音乐:古怪的灯光:完美我正在使用斯坦福大学的NLP库，但我不知道该怎么做。

浏览 2提问于2014-08-12得票数 0

1回答

Tika信息抽取

我可以知道如何使用Tika在网页中提取表格形式的信息，如数字吗？为此，Tika有解析器吗？谢谢

浏览 0修改于2012-08-16得票数 1

1回答

DBpedia信息抽取框架

有没有人用过维基百科的数据抽取？我需要在工作中使用它。谢谢!

浏览 1提问于2010-11-14得票数 2

1回答

从分类数据集( make_classification )中删除冗余特征

n_features=8, n_informative=7, n_redundant=1, n_repeated=0 , n_classes=2,random_state=6) 选择features.The n_repeated特性很容易，因为它们与信息丰富的文档字符串高度相关，因为重复和冗余特性表明

浏览 3修改于2021-01-03得票数 0

回答已采纳

1回答

信息抽取工具包

我正在寻找信息提取库，在那里我可以拥有半结构化的信息，这些信息可能包含隐藏的或不完整的数据。我想训练一些分类器来根据结构提取内容。我正在构建一个工具，我可以在其中选择浏览器中的文本，它将(通过一些web服务调用)生成一个分类器，该分类器可以用于其他文档以提取文本。我主要研究如何使用文档的结构来指示内容是什么。

浏览 1修改于2013-10-18得票数 1

回答已采纳

1回答

大型文档的实体抽取

我需要从word和pdf文档中提取实体。文件可在10至20页范围内。是否有可扩展的库/API可供我们插入处理管道？任何对不同解决方案的比较研究都是有帮助的。

浏览 2提问于2018-04-28得票数 0

回答已采纳

1回答

JMS发布服务器-如何从XML请求中获取值

我试图从从JMS发布服务器发送到JMS订阅服务器的xml文档中获取一个值。<sys1> <id>123</id> </req>文档会被转换。我需要检查xml文档

浏览 8提问于2021-12-29得票数 0

回答已采纳

1回答

ElasticSearch返回聚合随机顺序

我得到了以下的ElasticSearch-query，从“cat.id”上分组的每个“类别”中获取10个文档： "test": { "terms": {然而，我似乎找不到一种方法，从每个存储桶中随机抽取10个结果。结果总是一样的。我想从每个存储桶中随机抽取10个项目。我尝试了所有打算用于文档的东西，但似乎都不起作用。

浏览 3提问于2018-06-20得票数 0

1回答

无法试用文智的下载抽取API？

开发者实验室、api

无法试用文智的下载抽取API[附加信息]

浏览 333提问于2018-08-13

1回答

逻辑语义、信息抽取与总结

如果我想从任何特定领域的文本中检索有意义的信息，并理解任何文本的一般概念。原谅我的无知。

浏览 1修改于2015-10-21得票数 1

回答已采纳

2回答

信息抽取和文本挖掘有什么不同？

文本挖掘和信息抽取的区别是什么？

浏览 7提问于2013-06-22得票数 11

回答已采纳

1回答

使用CMSIS FIR系数进行抽取似乎不正确

由于ADC的采样率为4000 by，因此我希望减少发送的样本数量，即抽取(我认为是什么)，在抽取因子4之后，我将有1000 by的样本，然后我可以插回4000 by。我从here和其他参考文献中学习了基本的抽取和插值，并使用了CMSIS FIR抽取器和FIR内插器。: 4number of samples to process: 8 滤波器系数以变量{0,0,0,1}的形式存储，即文档我对FIR滤波器系数的理解是否正确，即1

浏览 24修改于2021-10-15得票数 0

2回答

JSON路径提取器缺失DummySampler

我对jMeter和JSON路径抽取器有一个问题。我下载了这个插件的zip文件，并将内容复制到ext文件，因为它是写在页面上的。com.thoughtworks.xstream.mapper.conversionException:kg.apc.jmeter.samplers.DummySampler:kg.apc.jmeter.samplers.DummySampler 我喜欢图书馆的样本和文档没有关于安装额外罐子的信息..。只需下载：表演必须继续下去

浏览 6修改于2016-10-20得票数 1

1回答

正则表达式抽取器在正则表达式中的应用

当两个正则表达式提取器都在相同的HTTP请求下时，我需要使用存储在下一个正则表达式抽取器中的变量中的以前正则表达式抽取器的结果。\\"/><input type=\\\\"hidden在文档中哪里可

浏览 2修改于2022-05-05得票数 -2

1回答

这个库能检测到JPG是RGB还是CMYK格式吗？

谢谢元数据抽取器库，这真的很有帮助。它给了我所有我需要的信息，除了JPG是RGB还是CMYK格式。信息是在那里，我只是没有看到它，还是这个库没有返回这个属性？谢谢

浏览 1提问于2018-12-04得票数 1

回答已采纳

5回答

文本抽取中的文档布局分析

我需要分析不同文档类型的布局结构，如：pdf、doc、docx、odt等。我的任务是:给出一个文档，将文本分组，找出每个文本的正确边界。Apache只提取文本，所以如果我的文档有两列，则Tika提取第一列的整个文本，然后提取第二列的文本，即ok...but --有时第一列上的文本与第二列上的文本相关，就像一个具有行关系的表。如何从同一块下的文档和组装相关文本(理解文档的布局结构)中提取文本？

浏览 12修改于2022-07-15得票数 6

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

用MongoDB实现PDF、word和文本文档的信息抽取、索引和检索

什么标记语言通常用于注释信息提取语料库

如何在使用JMeter提取器时忽略XPath中html标记的错误

web信息抽取

信息抽取->关系

Tika信息抽取

DBpedia信息抽取框架

从分类数据集( make_classification )中删除冗余特征

信息抽取工具包

大型文档的实体抽取

JMS发布服务器-如何从XML请求中获取值

ElasticSearch返回聚合随机顺序

无法试用文智的下载抽取API？

逻辑语义、信息抽取与总结

信息抽取和文本挖掘有什么不同？

使用CMSIS FIR系数进行抽取似乎不正确

JSON路径提取器缺失DummySampler

正则表达式抽取器在正则表达式中的应用

这个库能检测到JPG是RGB还是CMYK格式吗？

文本抽取中的文档布局分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐