我想教一个人工智能从PDF中提取特定的短语。例如,产品名称在文档中的某个位置,AI必须找到并提取它。我的问题是,是否最好将PDF作为图像或提取的字符串提供,因为文档是粗略构造的。我希望我的问题可以理解。
也许有人对我来说也有一些想法或关键词:)
编辑:多亏了伊西蒙斯的暗示,我找到了一种开始的方法:https://appliedmachinelearning.blog/2019/04/01/training-deep-learning-based-named-entity-recognition-from-scratch-disease-extraction-hackathon/
我将尝试这个代码,只使用产品名称,而不是疾病。这被称为“命名实体识别”,因为每个人都有同样的问题。我希望这能行。
https://stackoverflow.com/questions/59037180
复制相似问题