我刚刚拿到了一个Stackoverflow 数据转储,我很失望地看到这些帖子的Body字段使用的是HTML而不是Markdown。我怀疑原始数据库中有Markdown,因为如果我尝试编辑一个答案,我就会看到这一点。
我想从一大组答案中恢复Markdown。我将以批处理模式处理数百个条目,使用命令行工具或某种Lua或C库,因此像大规模毁灭性武器标记编辑器这样的交互式工具是不合适的。人们可以说有哪些工具可以帮助我从堆栈溢出数据转储中恢复Markdown?
(相关问题,而不是重复:将HTML转换为大规模毁灭性武器内的标记.)
发布于 2009-08-20 17:26:54
马氏将HTML转换为Markdown。
也见: MetaSO / 能否从SO数据转储中恢复Markdown?
发布于 2009-09-15 16:37:43
看看pandoc:http://johnmacfarlane.net/pandoc/
pandoc附带了一个html2markdown工具,它工作得很好,程序是从命令行运行的,这使得批处理转换相当不错。
下面是手册页:http://johnmacfarlane.net/pandoc/html2markdown.1.html
https://stackoverflow.com/questions/1307662
复制相似问题