如何从求职申请等文档中提取文本,并将其排序到具有诸如道布/SSN/地址/等特征的良好数据集中,而应用程序中的每个字段都用作我的数据集的一列?
发布于 2019-08-12 12:34:13
您有几个选择。您可以使用Amazon Textract,这正是您想要的https://aws.amazon.com/blogs/machine-learning/automatically-extract-text-and-structured-data-from-documents-with-amazon-textract/
您还可以尝试以https://medium.com/@datamonsters/text-preprocessing-in-python-steps-tools-and-examples-bf025f872908为起点构建自己的代码
https://stackoverflow.com/questions/57455558
相似问题