我有一个问题说明,要从power演示文稿文件中执行元数据提取,并使用R或快速minner.So执行文档标记,我需要帮助了解如何在这两个工具中读取ppt文件,然后执行文本处理。
发布于 2016-02-23 14:43:56
我只是注意到我在你重复的问题上回答了这个问题,所以我在这里删除了我的答案,并在这里添加了对其他用户更有帮助的答案。
我最近在RapidMiner支持网站上回答了一个非常类似的问题。Reading Powerpoint with RapidMiner
我将在这里重现答案: PPPTX文件是简单的ZIP目录,其中包含告诉Powerpoint将内容的每个部分放在何处的XML文档。所有幻灯片内容都存储在: /ppt/slides/ slide1.xml、slide2.xml等中(其他目录可用于存储幻灯片注释和其他内容)。
要使用RapidMiner读取它,只需使用operator Loop Zip-File条目,并将参数内部目录设置为ppt/slides,这将遍历上述所有xml文件。
在嵌套操作符内部,使用Read Document操作符集仅提取内容类型为XML的文本。这将提取演示文稿中每张幻灯片的内容。
这回答了你问题的第一部分。对于第二部分,一旦将文本放入,就可以使用任何RapidMiner文本处理操作符。
https://stackoverflow.com/questions/35331906
复制相似问题