文章/答案/技术大牛

发布

社区首页 >问答首页 >使用表单识别器解析内容错误

问使用表单识别器解析内容错误
EN

Stack Overflow用户

提问于 2019-12-15 23:52:08

回答 2查看 365关注 0票数 0

在试图分析作为架构图的PDF文件时，我收到了以下错误：

{
    "error": {
        "code": "2018",
        "innerError": {
            "requestId": "7ffbbd94-fab5-4200-b32c-990d6029a1cc"
        },
        "message": "Content parsing error."
    }
}

我正在使用表单Recognizer，PDF文件上有文本和绘图符号。我也尝试过不同的内容类型的标题(“多部分/表单-数据”，“应用程序/pdf”)，具有相同的结果。如果我截图PDF文件(只有一页)，并将其保存为图像，它将成功地处理。

表单识别器支持这些类型的PDF文件吗？我想知道我是不是遗漏了什么，或者建筑图纸目前不受支持。

编辑:我已经附上了两个示例绘图文件，我正在处理(混淆识别信息)。资料传奇文件是我需要从其中提取信息的主要文件。对于楼层计划文件，我只想提取关键说明部分的信息。

进一步澄清我需要提取的数据:我需要计算检测到的关键术语/短语的实例。例如，我需要扫描一个文件，看看它有多少次有文本‘洗手间’在其中。我同意表单识别器将它所看到的放在结果的记号部分。

材料图例

平面图示例

microsoft-cognitive

azure-cognitive-services

azure-form-recognizer

回答 2

Stack Overflow用户

发布于 2019-12-16 01:06:40

表单识别器主要关注有文本和值的表单(采购订单、纳税表单)。它将从文档中提取密钥/值对(地址、名称、ID)。你想从建筑图纸中得到什么类型的信息？如果您可以显示一个典型的架构图(在公共域中没有私有信息的类似的绘图)，以及您的预期结果，表单识别器团队可以对此进行研究。

希望这能有所帮助。谢谢-鑫-MSFT

票数 0

Stack Overflow用户

发布于 2020-06-10 10:53:07

考虑使用OCR表格工具或FOTT网站从OCR github站点培训一个模型：“要通过完整的标签-列车分析场景，您需要一组至少六种相同类型的表单。您将标记五个表单来训练一个模型，还有一个表单来测试模型。”

该模型为从表单和json映射中提取焦点提供了一些场景分析支持。

如果您还没有这样做，请尝试通过他们的表单识别器API v2进行测试。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59349100

复制

相似问题

问使用表单识别器解析内容错误
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用表单识别器解析内容错误EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用表单识别器解析内容错误
EN