首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >提取ePub摘录

提取ePub摘录
EN

Stack Overflow用户
提问于 2012-05-29 16:12:43
回答 2查看 1.7K关注 0票数 1

我读过ePub格式、标准、结构、阅读器、工具和可用的开发人员技术来操作/转换/创建ePubs,但目前还没有一种神奇的功能(到目前为止)可以提取特定长度的字符来创建本书的摘录。这正是我所要寻找的:一种提取ePub的第一个X字的方法。

  • 我正在考虑的第一种方法(不是我最喜欢的ePub格式)是创建一个解析器来读取所有ePub元数据,并开始按正确的顺序解析ePub文件,直到我有足够的单词创建一个确定的ePub的节选(我将感谢在这个方向上的一些反馈),
  • 是一个存在的工具/函数或解析器(希望在任何语言中),它返回(希望是)ePub的纯文本,这样我就可以收集第一个X单词,以便创建我的节录。

你知道有什么工具可以帮我实现第二种选择吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-06-05 07:23:10

何塞,我不知道有什么工具能做你想做的事。不过,让我谈谈你的第一种做法。如果你确实找到了一个工具,我希望这些评论可以让你评估它。

我认为您的方法是好的,如果您想要做一个很好的工作,创建一个摘录,您可能想拥有这个步骤无论如何。我建议你,

  • 获取OPF文件并查找指南部分。如果存在指南部分,请检查给定的类型。有些可能与摘录(封面、标题页、版权页)无关.许多书籍都没有明确说明类型,但这应该会有所帮助。
  • 现在按照脊柱部分的顺序遍历文件,不包括任何无关的内容,并阅读足够多的XHTML文件以获取摘录。
  • 在OPF文件中获取一堆元数据(如果这与节选相关的话)(我认为标题、创建者、日期是强制性的,一些作者还会添加大量其他元数据,例如关键字)。

如果您正在创建一个带有此摘录的mini-EPUB,您将需要获取用于制作节选的XHTML文件中引用的任何CSS、音频、视频、图像和自定义字体文件。您甚至可以选择使用原来的封面文件作为您的摘录电子酒吧的封面文件。

如果你使用固定的版面书和有趣的东西,比如Read,你想要创建一个mini-EPUB作为一个节选,你可能会更好地使用一个页面计数,而不是一个单词计数。不要忘记在你的节选中包含任何SMIL文件,并使它看起来很好看:(i)不要分割两个页面,并且(ii)确保第一页是奇数页,如果原始页中为奇数,或者如果原始页为偶数,则可能需要添加一个空白填充页(如果出现奇数/偶数错误,随后的两个页面差将不会对着对方)。

我希望这能帮上忙。

票数 0
EN

Stack Overflow用户

发布于 2013-06-16 21:26:34

您应该看看Apache:http://tika.apache.org/,您可以从命令行使用它,或者作为一个java库,甚至在服务器模式下从ePub中提取文本。希望这会有帮助,F。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10802868

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档