首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用表单识别器解析内容错误

使用表单识别器解析内容错误
EN

Stack Overflow用户
提问于 2019-12-15 23:52:08
回答 2查看 365关注 0票数 0

在试图分析作为架构图的PDF文件时,我收到了以下错误:

代码语言:javascript
复制
{
    "error": {
        "code": "2018",
        "innerError": {
            "requestId": "7ffbbd94-fab5-4200-b32c-990d6029a1cc"
        },
        "message": "Content parsing error."
    }
}

我正在使用表单Recognizer,PDF文件上有文本和绘图符号。我也尝试过不同的内容类型的标题(“多部分/表单-数据”,“应用程序/pdf”),具有相同的结果。如果我截图PDF文件(只有一页),并将其保存为图像,它将成功地处理。

表单识别器支持这些类型的PDF文件吗?我想知道我是不是遗漏了什么,或者建筑图纸目前不受支持。

编辑:我已经附上了两个示例绘图文件,我正在处理(混淆识别信息)。资料传奇文件是我需要从其中提取信息的主要文件。对于楼层计划文件,我只想提取关键说明部分的信息。

进一步澄清我需要提取的数据:我需要计算检测到的关键术语/短语的实例。例如,我需要扫描一个文件,看看它有多少次有文本‘洗手间’在其中。我同意表单识别器将它所看到的放在结果的记号部分。

材料图例

平面图示例

EN

回答 2

Stack Overflow用户

发布于 2019-12-16 01:06:40

表单识别器主要关注有文本和值的表单(采购订单、纳税表单)。它将从文档中提取密钥/值对(地址、名称、ID)。你想从建筑图纸中得到什么类型的信息?如果您可以显示一个典型的架构图(在公共域中没有私有信息的类似的绘图),以及您的预期结果,表单识别器团队可以对此进行研究。

希望这能有所帮助。谢谢-鑫-MSFT

票数 0
EN

Stack Overflow用户

发布于 2020-06-10 10:53:07

考虑使用OCR表格工具FOTT网站从OCR github站点培训一个模型:“要通过完整的标签-列车分析场景,您需要一组至少六种相同类型的表单。您将标记五个表单来训练一个模型,还有一个表单来测试模型。”

该模型为从表单和json映射中提取焦点提供了一些场景分析支持。

如果您还没有这样做,请尝试通过他们的表单识别器API v2进行测试。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59349100

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档