为什么开源 TextIn OCR Frontend 前端组件库? 在 TextIn 社群中,我们时常接到用户反馈,调取 API 进行票据等文件批量识别后,需要另行完成前端工程,实现比对环节。 为助力用户节省工程成本,TextIn 团队正式开源 OCR Frontend 前端组件库,便于用户搭建前端界面,完成识别结果审核,提升使用体验。 TextIn OCR Frontend 是一个用于展示 Textin 识别结果的 React 组件库,支持文件预览、坐标回显和结果展示。 参数返回值示例图片示例PDF 示例二次开发项目基于 vite 和 react 构建,您可将该项目 fork 到本地自主扩展: 拉取项目 以上为 TextIn OCR Frontend 开源组件库当前版本介绍 根据规划,组件库将持续迭代,实现:组件支持更多自定义配置、样式覆盖等特性支持可编辑、复制、导出结果支持更多复杂类型识别结果展示使用过程中如有任何问题,欢迎后台私信小助手,在 TextIn 社群与我们技术团队的小伙伴交流探讨
目前,TextIn MCP Server 已覆盖文字识别、文档解析、信息抽取等核心产品能力。 输入file path (string)输出The key information JSON登陆 TextIn 账户并获得 API Key登录 TextIn 工作台,如果没有账户,请注册成为 TextIn 在 TextIn 工作台【账号与开发者信息】,可获得 APP ID 与 Secret Code。 快速接入 TextIn MCP Server支持任意 MCP 协议的客户端(如:Cursor、Claude、Cline)可方便使用 TextIn MCP server,如下以 Cherry 平台为例:1 返回【对话助手】,在下栏【MCP 服务器】选中 TextIn。 3 开始使用案例一:文件审核使用 TextIn MCP Server + 大模型,基于信息抽取与分析能力,完成合同比对工作。
TextIn ParseX通用文档解析是一款大模型友好的解析工具,支持将pdf文档、jpg、img图像等文件快速转换为markdown格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务 近日,为便于使用Java语言的开发者调用文档解析引擎,TextIn ParseX SDK工具新增Java版本。 SDK工具Java版地址:https://github.com/intsig-textin/parsex-sdk/tree/main/javaSDK功能介绍这是一套标准的多平台支持的Java SDK,帮助开发者解析 path/to/your/document.pdf"; // 指定解析的api url,请参考api文档确定参数 String apiUrl = "https://api.textin.com 这个示例展示了如何使用TextIn ParseX SDK的主要功能,包括提取Markdown内容、文本、表格、段落、图片信息等。您可以根据需要修改这个示例,以适应您的具体使用场景。
为了满足这些需求,方便用户,我们将textin.com上面的前端可视化组件进行了开源,请用户批评指正。 开通文档解析服务,然后可以在试用工作台点击用户图标,再点击账号与开发者信息(或者登陆后从textin首页->账户与充值->账号与开发者信息,或者点击https://www.textin.com/console 在 TextIn.com 体验页上,我们提供丰富的可视化和交互功能,这部分前端组件现已开源!项目用ES6开发,基于React框架。 Copy以下链接,即刻使用:SDK:https://github.com/intsig-textin/parsex-sdk前端组件:https://github.com/intsig-textin/parsex-frontend 在TextIn官网获取新用户1000页免费额度。更多额度福利、大模型应用技术学习材料,关注公众号 合研社 即刻领取!
这正是TextIn xParse智能文档解析引擎致力于解决的痛点。 使用方法访问TextIn官网主页进行注册。 方法一:在线使用TextIn提供了一个在线的Web平台,可以通过浏览器直接使用,无需编写任何代码即可快速试用API并感受效果。 下方图片展示了模型问答情况,图1为直接上传PDF的回答,图2为上传TextIn解析后的Markdown文件获得的答复。 TextIn xParse通过其深度结构化解析能力为RAG系统提供了高质量输入,从根本上解决了检索不准、生成偏差、信息缺失等瓶颈问题。 欢迎访问TextIn官网体验产品,共同探索高效的文档智能未来。
针对这些问题,介绍了TextIn文档解析技术和文字向量化技术的应用,以及TextIn平台的产品和服务。 引言: 随着大型模型在文档处理领域的应用越来越广泛,文档解析技术的发展变得尤为重要。 2.TextIn 文档解析技术 TextIn 文档解析技术架构图如下: 2.1 解决版面分析 TextIn 采用了一项关键技术——Layout-engine,这是一个用于版面分析的算法框架。 2.3 大模型技术与TextIn更好的兼容性 将TextIn文档解析技术与大型模型相结合可以提高大型模型在文档问答任务中的精度。 TextIn文字智能平台 TextIn.com是合合信息的平台,专注于深耕智能文字识别和商业大数据领域。其产品涵盖了C端和B端市场。 TextIn为用户提供了多种智能文字识别和商业大数据服务,满足了不同用户群体的需求。
在我们的项目中,使用了一款商业文档解析服务TextIn,工作台如下图所示,上传了一份贵州茅台2023年的年报。 TextIn解析PDF,具有以下优势: 高级图像处理能力:对文档进行区域划分,通过使用边界框bounding box定位其中的关键区域,如文字、标题、表格、图片等。这样能够准确识别和提取图表中的数。 此外,在批量解析PDF的场景中,TextIn还提供了各种编程语言的API接口,如下图所示。 这样就可以调用TextIn的API服务将PDF的年报解析成结构化的数据。 这里我提供一个Python的调用示例,帮助你快速调用。 return fp.read() def recognize(self): # 通用文档解析 url = 'https://api.textin.com
目前,国内已有知名出版社在TextIn ParseX的辅助下启动了对知识资产的AI化改造深度的进程。为什么是TextIn文档解析? 目前,无论是多栏文本还是带有图表的内容,TextIn都能实现清晰稳定的输出。 柱状图解析案例:便捷的工具使用方式除了强大的解析性能外,TextIn文档解析还非常注重用户的实际操作体验。 为了让开发者更方便地调用TextIn的功能,官方团队还发布了全面的SDK工具包,支持Python和Java两种主流编程语言。 无论是在Web应用程序开发还是大数据分析项目中,工程师们都可以迅速上手并充分利用TextIn的强大解析能力,缩短项目的开发周期,提高工作效率。 数据价值如何释放?
GitHub 地址:https://github.com/intsig-textin/langchain-xparsePyPI 地址:https://pypi.org/project/langchain-xparse xParse LangChain 插件亮点强大的文档处理能力:支持 PDF、Word、Excel、PPT、图片等多种格式,准确提取标题、公式、图表、表格等元素,保留文档的语义结构灵活的解析配置:支持 TextIn 工作台(https://www.textin.com/console/dashboard/setting) 获取 API Key。 A:xParse API 凭证:请前往 TextIn 工作台 - 账号与开发者信息 获取 XPARSE_APP_ID 和 XPARSE_SECRET_CODE,详细获取方式请参考 [API Key 文档 A: 根据文档类型和需求选择合适的解析引擎:TextIn:适合大多数场景,速度和准确性俱佳(推荐)TextIn-lite:适合纯文本、表格图片、电子档 PDF 等场景,速度更快,价格更低mineru:适合学术论文等场景
TextIn通过AI能力实现文本、表格、图表和公式的精准提取。 (https://www.textin.com/)账号并开通API权限✅从TextIn控制台获取AppID和SecretCode✅本地已安装RAGflow对应官方版本⚠️版本提示:请确保部署的服务镜像版本与 步骤1.2:添加TextIn模型找到TextIn卡片,点击添加模型,填写以下配置信息:步骤1.3:验证并保存点击验证按钮测试连接,验证通过后点击添加保存配置。 步骤2.2:选择TextIn解析器进入知识库的设置页面,找到PDF解析器选项。在下拉列表的TextIn分组中,选择刚才添加的模型(标注为Experimental)。点击保存应用配置。 TextIn是按调用次数或页数计费的服务,具体费用请登录TextIn控制台(https://www.textin.com/console/dashboard查看账户余额和计费明细。Q:解析速度如何?
TextIn文档解析测评工具开源,全面评测文档解析产品能力。 示例与结果展示 TextIn官方提供了一个测试集案例来展示用法。输出结果包括表格数据结果和直观的雷达图。 工具公开的初衷 TextIn团队决定将这款内部使用的“瑞士军刀”公开,主要是因为近期收到越来越多的测评工具需求。 TextIn团队公开测评工具的目的就是将这些问题透明化。 保持评价过程的透明度 希望TextIn团队的测评工具能够帮助大家解决评估所需产品的难题。
本文通过科学严谨的测试流程,对 Textin 平台进行全方位测评,并与市场主流竞品(A平台、B平台)进行对比,旨在为用户提供决策参考。 :Textin 的法律风险模型正确识别出 83% 的潜在问题条款,较竞品提升 30% 协作效率:多人在线审查时,Textin 的响应延迟控制在 50ms 以内,而竞品平均延迟超过 300ms 4. 0.12% 上下文理解:通过语义模型,Textin 减少了 65% 的同音字错误(如“必须”误作“必需”) 多模态处理:在图文混排文档中,Textin 的布局分析准确率比竞品高 19% 四、API测试 的本地 API 调用功能也是很不错的 六、总结 适用场景建议 企业级用户:推荐 Textin,其高性能处理和行业解决方案能显著提升办公效率 开发者:推荐 Textin,API 设计简洁且文档完善,可快速集成 对识别精度要求极高的场景:建议选择 Textin,其在复杂场景下的准确率优势明显 通过本次全面测试可知,Textin 在功能、性能、API 设计等多个维度上均处于行业领先地位,尤其适合对文档处理效率和精度要求较高的企业和开发者
数字员工的介入 2024年11月,企业引入了基于TextIn大模型加速器与火山引擎HiAgent平台搭建的"合同审查数字员工"。 通用文档解析 本方案使用TextIn通用文档解析API(TextIn_DocParser_X)作为文档处理的核心引擎。 对于采购合同这类混合格式的文档(可能包含扫描的签章页、Excel格式的报价单、PDF版本的标准条款),TextIn解析引擎能够统一处理,无需针对不同格式开发多套解析逻辑。 TextIn直接输出Markdown+BBOX,无需二次加工即可用于向量化和可视化;三是API稳定性,生产环境需要7×24小时可用,TextIn的服务可用性SLA满足企业级要求。 TextIn大模型加速器与火山引擎HiAgent的组合,恰恰提供了这样一站式的能力,让AI从实验室走向业务现场,从概念验证走向持续创造价值。
近期,为便捷智能文档处理流程,TextIn文档解析推出内测版本,支持内置参数,完成去水印与切边矫正处理,有效提升解析准确率与输出结果质量。 TextIn ParseX将去水印功能内置到了产品中,帮助提升解析效果,减少文件另行去水印带来的时间消耗,同时也让代码编写更为便捷。 使用示例:步骤一:登录TextIn官网TextIn - API中心,获取app-id和secret-code。 _app_secret = app_secret self.host = 'https://api.textin.com' def recognize_pdf2md(self, image 常用场景:医疗报告单据、征信报告、作业照片等使用示例:步骤一:登录TextIn官网TextIn - API中心,获取app-id和secret-code。
2.2 方案:通过TextIn来处理 最近在找一些好用的产品,用了合合信息TextIn模块还是非常好用的,推荐给大家。 跨页合并,多少数据的痛点,通过TextIn也能够轻松搞定。 3.3 从数据处理到知识管理的完整链路 有了TextIn这样的工具,我们的AI Chatbot搭建流程就变得非常清晰: 数据收集:收集企业内部的各种格式文档 智能解析:通过TextIn批量处理,转换为结构化数据 这样我们就可以顺利的在扣子Bot和工作流中引入TextIn功能了。 合合信息 TextIn的价值在于: TextIn为企业带来的价值是全方位的。首先是降低技术门槛,企业无需配备专业的数据处理人员,普通员工即可轻松处理复杂的文档资料。
二、TextIn ParseX 本地实践流程2.1、TextIn ParseX 项目简介就我个人目前在工作中遇到的各类业务而言,现代文档形式日益多样化,这些文档不仅包含传统的文本格式,还包括PDF、扫描件 工欲善其事,必先利其器,TextIn ParseX项目正是在这样的背景下应运而生。 2.2、下载代码与安装环境目前合合信息团队已经将TextIn ParseX 项目开源,我们可以首先进入TextIn ParseX 项目github仓库:https://github.com/intsig-textin 2.3、项目配置首次打开项目后,需要首先进入TextIn工作台申请api,点击https://www.textin.com/console/dashboard/setting进入控制台,新建密钥然后将密钥中的 2.4、TextIn ParseX功能测评点击左侧上传需要扫描的PDF文件,即可看到解析目录、pdf对照以及最终的解析结果如下:首先,我们可以看到TextIn ParseX对解析结果进行了Markdown
在 TextIn 平台注册后,即可领取 100 页免费测试额度。打开TextIn[5]的通用文档解析工作台,点击左侧上传文件即可,如下图所示。 4.2 TextIn 可以看到 TextIn 准确地识别出了排列,以及图片和其对应的描述。这里图片内容并不影响文本本身的连续性,因为 markdown 中图片内容是以注释[]( "")格式存在。 总结:图像提取这一环节,开源工具都忽略图像,某产商的图像标题错乱排版,TextIn 依然胜出。 5.总结 综上,不论是在图表提取、格式兼容还是效率上,TextIn 无疑表现更为优秀,而且非常容易集成到 RAG 的 Pipeline 中。 / [5] TextIn: https://www.textin.com/market/chager/pdf_to_markdown?
TextIn 文档解析技术 针对上述问题,合合信息发布了TextIn 相关模型。 归功于这两样核心技术,TextIn在双栏、非对称双栏、含表格双栏、无线表格、合并表格层级目录文档的解析上都有出色表现。 其他模型 TextIn模型 文本向量化 除了文本解析技术,TextIn在文本向量化领域也尤为突出。 近日,TextIn acge_text_embedding 文本向量化模型在 C-MTEB榜单排名第一。同时TextIn模型在多个方面都展现出了明显的优势。 相比于传统的预训练或微调垂直领域模型,TextIn模型不仅支持通用分类模型的构建,还能提升长文档信息抽取的精度。
近期,我发现合合信息 TextIn 推出了全新解决方案——大模型加速器 2.0,专门解决这一问题。 通过大规模预训练的基座模型,TextIn采用生成式学习方法,从图表的布局、线条、颜色、标记等多个维度进行深度建模。 什么是 TextIn大模型加速器 2.0? 接下来,我们将从两个方面,详细评测和体验 TextIn大模型加速器 2.0 的文档和图表智能解析能力。 图片 一、准备工作 首先,访问 TextIn 官网: 找到页面左上角的“体验中心”。 四、使用体验总结 通过对TextIn大模型加速器 2.0的体验,以下是我对其核心功能的总结: 1.
TextIn团队的文档解析测评工具Markdown Tester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度 TextIn团队研发了文档树引擎这一关键技术,针对性提升标题检测能力。物理版面分析技术支持对目标区块的检测与元素识别,并利用标题区块的高度(即字号)判断一级、二级、三级、......N级标题。 TextIn文档树引擎遵循以下路径工作:一、输入 整份文档的段落内容,以序列化形式传入模型 二、预测 提取当前段落的embedding值 预测每个段落和上一个段落的关系,分为子标题、子段落、合并、 目前,TextIn文档解析工具已在RAG知识库问答中发挥重要功能,文档树引擎在年报、财报、行研报告等金融文件领域展现了较为明显的优势。 对于文档解析工具在RAG、LLM场景下的效果,欢迎各位开发者随时向我们提出其他需求,与我们共同交流您当下的用途和需要~TextIn文档解析产品目前正在提供开发者福利,添加合合信息企V,即可申领!