我正在创建一个数据库来存储我的eBook集合。
它们中的大多数在书的正文中都有ISBN。
如何访问此内容?
有没有什么源码或者DLL可以做到这一点呢?
发布于 2009-01-02 11:01:56
我是为eBook库应用程序这么做的。首先,你需要从chm或pdf文件中提取文本。有很多实用程序\库可以做到这一点。这是一个关于如何从CHM文件中提取内容的CodeProject上的article。对于PDF文件,我使用了pdftotext实用程序。当您从eBook获得纯文本时,使用regular expression对其进行解析以找到ISBN10/13代码。
发布于 2009-01-02 11:02:40
从CHM和PDF文件中提取文本是第一步。接下来,您可以找到带有regular expression的ISBN编号。
https://stackoverflow.com/questions/406484
复制相似问题