首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在r和快速挖掘器中执行元数据提取和标记

在r和快速挖掘器中执行元数据提取和标记
EN

Stack Overflow用户
提问于 2016-02-11 14:02:01
回答 1查看 153关注 0票数 1

我有一个问题说明,要从power演示文稿文件中执行元数据提取,并使用R或快速minner.So执行文档标记,我需要帮助了解如何在这两个工具中读取ppt文件,然后执行文本处理。

EN

回答 1

Stack Overflow用户

发布于 2016-02-23 14:43:56

我只是注意到我在你重复的问题上回答了这个问题,所以我在这里删除了我的答案,并在这里添加了对其他用户更有帮助的答案。

我最近在RapidMiner支持网站上回答了一个非常类似的问题。Reading Powerpoint with RapidMiner

我将在这里重现答案: PPPTX文件是简单的ZIP目录,其中包含告诉Powerpoint将内容的每个部分放在何处的XML文档。所有幻灯片内容都存储在: /ppt/slides/ slide1.xml、slide2.xml等中(其他目录可用于存储幻灯片注释和其他内容)。

要使用RapidMiner读取它,只需使用operator Loop Zip-File条目,并将参数内部目录设置为ppt/slides,这将遍历上述所有xml文件。

在嵌套操作符内部,使用Read Document操作符集仅提取内容类型为XML的文本。这将提取演示文稿中每张幻灯片的内容。

这回答了你问题的第一部分。对于第二部分,一旦将文本放入,就可以使用任何RapidMiner文本处理操作符。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35331906

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档