MongoDB是否有一个功能,我可以存储PDF、文本或. do /docx文档并搜索它们,或者在它们的内容中找到一个关键字,在两个文档之间进行匹配?我需要存储另一个名为“physician_diagnosis.pdf”的文本,其中包含一个匹配的简短描述。
我想发出查询,在那里我可以找到任何具有匹配日期和相同诊断的文档。
经过一段时间,我发现这可以通过两种方式来实现,
我遵循的总结,这是产生良好的结果与预先训练的模型问题:我到目前为止看过的大多数抽取总结器(PyTeaser、PyTextRank和Gensim)都不是基于监督学习,而是基于朴素贝叶斯分类器、tf-以色列国防军、POS标记、基于关键字频率、位置等的句子排序清除文本并应用停止词筛选器
使用词汇量为20000的托卡器from keras.preprocessing.text i