我对使用Orange数据挖掘软件非常陌生,我很难找到我想要的东西。我有3万份文本文件。我希望使用橙色帮助我提取关键词和短语,然后向我显示哪些文件有我正在寻找的单词和阶段。我也希望扫描PDF以及图像,以获得单词和短语。如有任何指导和/或橙色工作流程,将不胜感激。
发布于 2021-12-17 09:42:14
您的工作流有几个选项。一种是使用文本加载项中的提取关键字小部件来检索相关的关键字(使用TF或YAKE)。然后,您可以使用语义查看器查找这些单词出现在其中的文档以及出现在何处。另一种方法是使用预处理文本,只保留那些你觉得有趣的单词。您可以在“筛选器”部分提供自定义词典。然后使用Word Cloud显示关键字频率,单击感兴趣的关键字并连接Corpus Viewer来观察包含所选关键字的文档(来自Word Cloud)。
https://datascience.stackexchange.com/questions/106163
复制相似问题