腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
用MongoDB实现PDF、word和文本
文档
的
信息
抽取
、索引和检索
MongoDB是否有一个功能,我可以存储PDF、文本或. do /docx
文档
并搜索它们,或者在它们的内容中找到一个关键字,在两个
文档
之间进行匹配?例如:诊断代码,简短的描述,日期和数量。我想发出查询,在那里我可以找到任何具有匹配日期和相同诊断的
文档
。(例如“肺炎”,“2012年12月12日”) 如果只使用MongoDB的API就可以这样做,还是需要做一些预处理?如果可能的话,你能给我介绍一下好的例子和
文档
吗?
浏览 0
修改于2013-05-19
得票数 3
2
回答
什么标记语言通常用于注释
信息
提取语料库
我正在构建一个
信息
抽取
的语料库,用于提取特定类型的
信息
,并且我正在努力决定对实体进行注释的最佳方法。由于本
文档
是在1997年编写的,我猜想使用这种基于SGML的方法已经过时了,因此必须有更好的方法来实现这一点,例如使用OWL、RDF或XML。是否有更新的行业标准来注释
信息
抽取
语料库?
浏览 5
提问于2017-05-19
得票数 1
回答已采纳
2
回答
如何在使用JMeter提取器时忽略XPath中html标记的错误
我成功地在我的XPath测试中添加了一个JMeter
抽取
器。现在,我收到了JMeter.log中的错误,抱怨我们的网页中有两个html标签。这些标记是由我们创建的,是我们可以在代码中使用的标记。假设这些标签是:下面是JMeter日志
信息
: 2014/01/29 14:27:18警告- jmeter.util.XPathUtil:整齐错误:行25列4-错误:不识别!InputStream: Doctype给出的是“InputStream:
文档
内容看起来像HTML4.01过渡性33条警告,发现了2个
浏览 5
修改于2014-01-29
得票数 0
回答已采纳
1
回答
web
信息
抽取
我想创建一个购物搜索引擎,显示来自许多网站的产品,我想知道如何从这些网站检索有关产品的
信息
。我对搜索引擎部分不感兴趣,但从网页中自动提取产品
信息
的方式使用自动生成的模板。
浏览 0
修改于2011-07-05
得票数 0
1
回答
信息
抽取
->关系
“这部电影太棒了。背景音乐很古怪,灯光也很完美。”电影:令人惊叹的背景音乐:古怪的灯光:完美我正在使用斯坦福大学的NLP库,但我不知道该怎么做。
浏览 2
提问于2014-08-12
得票数 0
1
回答
Tika
信息
抽取
我可以知道如何使用Tika在网页中提取表格形式的
信息
,如数字吗?为此,Tika有解析器吗? 谢谢
浏览 0
修改于2012-08-16
得票数 1
1
回答
DBpedia
信息
抽取
框架
有没有人用过维基百科的数据
抽取
?我需要在工作中使用它。谢谢!
浏览 1
提问于2010-11-14
得票数 2
1
回答
从分类数据集( make_classification )中删除冗余特征
n_features=8, n_informative=7, n_redundant=1, n_repeated=0 , n_classes=2,random_state=6) 选择features.The n_repeated特性很容易,因为它们与
信息
丰富的
文档
字符串高度相关,因为重复和冗余特性表明
浏览 3
修改于2021-01-03
得票数 0
回答已采纳
1
回答
信息
抽取
工具包
我正在寻找
信息
提取库,在那里我可以拥有半结构化的
信息
,这些
信息
可能包含隐藏的或不完整的数据。我想训练一些分类器来根据结构提取内容。我正在构建一个工具,我可以在其中选择浏览器中的文本,它将(通过一些web服务调用)生成一个分类器,该分类器可以用于其他
文档
以提取文本。 我主要研究如何使用
文档
的结构来指示内容是什么。
浏览 1
修改于2013-10-18
得票数 1
回答已采纳
1
回答
大型
文档
的实体
抽取
我需要从word和pdf
文档
中提取实体。文件可在10至20页范围内。是否有可扩展的库/API可供我们插入处理管道?任何对不同解决方案的比较研究都是有帮助的。
浏览 2
提问于2018-04-28
得票数 0
回答已采纳
1
回答
JMS发布服务器-如何从XML请求中获取值
我试图从从JMS发布服务器发送到JMS订阅服务器的xml
文档
中获取一个值。<sys1> <id>123</id> </req>
文档
会被转换。我需要检查xml
文档
浏览 8
提问于2021-12-29
得票数 0
回答已采纳
1
回答
ElasticSearch返回聚合随机顺序
我得到了以下的ElasticSearch-query,从“cat.id”上分组的每个“类别”中获取10个
文档
: "test": { "terms": {然而,我似乎找不到一种方法,从每个存储桶中随机
抽取
10个结果。结果总是一样的。我想从每个存储桶中随机
抽取
10个项目。我尝试了所有打算用于
文档
的东西,但似乎都不起作用。
浏览 3
提问于2018-06-20
得票数 0
1
回答
无法试用文智的下载
抽取
API?
开发者实验室
、
api
无法试用文智的下载
抽取
API[附加
信息
]
浏览 333
提问于2018-08-13
1
回答
逻辑语义、
信息
抽取
与总结
如果我想从任何特定领域的文本中检索有意义的
信息
,并理解任何文本的一般概念。原谅我的无知。
浏览 1
修改于2015-10-21
得票数 1
回答已采纳
2
回答
信息
抽取
和文本挖掘有什么不同?
文本挖掘和
信息
抽取
的区别是什么?
浏览 7
提问于2013-06-22
得票数 11
回答已采纳
1
回答
使用CMSIS FIR系数进行
抽取
似乎不正确
由于ADC的采样率为4000 by,因此我希望减少发送的样本数量,即
抽取
(我认为是什么),在
抽取
因子4之后,我将有1000 by的样本,然后我可以插回4000 by。我从here和其他参考文献中学习了基本的
抽取
和插值,并使用了CMSIS FIR
抽取
器和FIR内插器。: 4number of samples to process: 8 滤波器系数以变量{0,0,0,1}的形式存储,即
文档
我对FIR滤波器系数的理解是否正确,即1
浏览 24
修改于2021-10-15
得票数 0
2
回答
JSON路径提取器缺失DummySampler
我对jMeter和JSON路径
抽取
器有一个问题。我下载了这个插件的zip文件,并将内容复制到ext文件,因为它是写在页面上的。com.thoughtworks.xstream.mapper.conversionException:kg.apc.jmeter.samplers.DummySampler:kg.apc.jmeter.samplers.DummySampler 我喜欢图书馆的样本和
文档
没有关于安装额外罐子的
信息
..。只需下载: 表演必须继续下去
浏览 6
修改于2016-10-20
得票数 1
1
回答
正则表达式
抽取
器在正则表达式中的应用
当两个正则表达式提取器都在相同的HTTP请求下时,我需要使用存储在下一个正则表达式
抽取
器中的变量中的以前正则表达式
抽取
器的结果。\\"/><input type=\\\\"hidden在
文档
中哪里可
浏览 2
修改于2022-05-05
得票数 -2
1
回答
这个库能检测到JPG是RGB还是CMYK格式吗?
谢谢元数据
抽取
器库,这真的很有帮助。它给了我所有我需要的
信息
,除了JPG是RGB还是CMYK格式。
信息
是在那里,我只是没有看到它,还是这个库没有返回这个属性? 谢谢
浏览 1
提问于2018-12-04
得票数 1
回答已采纳
5
回答
文本
抽取
中的
文档
布局分析
我需要分析不同
文档
类型的布局结构,如:pdf、doc、docx、odt等。 我的任务是:给出一个
文档
,将文本分组,找出每个文本的正确边界。Apache只提取文本,所以如果我的
文档
有两列,则Tika提取第一列的整个文本,然后提取第二列的文本,即ok...but --有时第一列上的文本与第二列上的文本相关,就像一个具有行关系的表。如何从同一块下的
文档
和组装相关文本(理解
文档
的布局结构)中提取文本?
浏览 12
修改于2022-07-15
得票数 6
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券