
对于需要处理国际文献的研究员、撰写技术文档的工程师、或是阅读海外产品的运营人员来说,文档翻译是一个高频且痛苦的需求。
我们真正渴望的,不仅仅是将A语言转换成B语言,而是一份在格式、术语和专业性上都与原作媲美的译稿。
最近发现了一款开源项目,可完美地帮助我们达到这一效果——DocuTranslate,一款开源的、本地运行的智能文档翻译工具。

它能在保留原格式的前提下,高质量翻译 PDF、Word、Excel、Markdown 等多种文件类型。
更厉害的是,支持精确识别PDF中的表格、公式和代码块,并进行准确翻译。同时,支持大部分主流的AI模型供应商平台,允许自定义提示词,以及并发高性能AI翻译。


提供Windows、Mac整合包直接下载使用,也可通过pip安装,在局域网内还可以多人同时使用。
DocuTranslate安装简单,支持Windows/Mac整合包一键下载安装,也可使用pip命令通过API集成。
整合包下载
打开项目Release页面,下载DMG/EXE格式文件,一键安装,然后填入你的AI平台API-Key即可开始使用。

如有下载问题,可公众号内回复“DocuTranslate”获取小编准备好的安装包。
注意:
pip安装
# 基础安装
pip install docutranslate
# 如需使用 docling 本地解析PDF
pip install docutranslate[docling]启动 Web UI 和 API 服务
# 启动服务,默认监听 8010 端口
docutranslate -i
# 指定端口启动
docutranslate -i -p 8011
# 也可以通过环境变量指定端口
export DOCUTRANSLATE_PORT=8011
docutranslate -ihttp://127.0.0.1:8010 (或您指定的端口)。http://127.0.0.1:8010/docs。使用方式
比如:翻译一个 PDF 文件 (使用 MarkdownBasedWorkflow)
import asyncio
from docutranslate.workflow.md_based_workflow import MarkdownBasedWorkflow, MarkdownBasedWorkflowConfig
from docutranslate.converter.x2md.converter_mineru import ConverterMineruConfig
from docutranslate.translator.ai_translator.md_translator import MDTranslatorConfig
from docutranslate.exporter.md.md2html_exporter import MD2HTMLExporterConfig
async def main():
# 1. 构建翻译器配置
translator_config = MDTranslatorConfig(
base_url="https://open.bigmodel.cn/api/paas/v4", # AI 平台 Base URL
api_key="YOUR_ZHIPU_API_KEY", # AI 平台 API Key
model_id="glm-4-air", # 模型 ID
to_lang="English", # 目标语言
chunk_size=3000, # 文本分块大小
concurrent=10, # 并发数
# glossary_generate_enable=True, # 启用自动生成术语表
# glossary_dict={"Jobs":"乔布斯"}, # 传入术语表
# system_proxy_enable=True,# 启用系统代理
)
# 2. 构建转换器配置 (使用 minerU)
converter_config = ConverterMineruConfig(
mineru_token="YOUR_MINERU_TOKEN", # 你的 minerU Token
formula_ocr=True # 开启公式识别
)
# 3. 构建主工作流配置
workflow_config = MarkdownBasedWorkflowConfig(
convert_engine="mineru", # 指定解析引擎
converter_config=converter_config, # 传入转换器配置
translator_config=translator_config, # 传入翻译器配置
html_exporter_config=MD2HTMLExporterConfig(cdn=True) # HTML 导出配置
)
# 4. 实例化工作流
workflow = MarkdownBasedWorkflow(config=workflow_config)
# 5. 读取文件并执行翻译
print("开始读取和翻译文件...")
workflow.read_path("path/to/your/document.pdf")
await workflow.translate_async()
# 或者使用同步的方式
# workflow.translate()
print("翻译完成!")
# 6. 保存结果
workflow.save_as_html(name="translated_document.html")
workflow.save_as_markdown_zip(name="translated_document.zip")
workflow.save_as_markdown(name="translated_document.md") # 嵌入图片的markdown
print("文件已保存到 ./output 文件夹。")
# 或者直接获取内容字符串
html_content = workflow.export_to_html()
html_content = workflow.export_to_markdown()
# print(html_content)
if __name__ == "__main__":
asyncio.run(main())还有更多使用示例及参考参数也在项目主页文档中查看学习。
DocuTranslate 解决的不仅仅是翻译问题,它解决的是信息跨语言流动时的保真度问题。
它不仅能看懂 PDF,更能理解表格、公式与代码的语义结构,在翻译准确度、格式还原度和隐私保护上,都达到了极高水平。
对科研工作者、开发者、技术写作者来说——这可能是你见过最懂文档的开源AI翻译工具之一。
GitHub 项目地址:https://github.com/xunbu/docutranslate

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️
在看你就赞赞我!
