我对网络有个问题。对于一个文档,我正在提取一些信息。我正在为他们画漂亮的图表。而是文档中的信息流。我试图用图形来描述它,就像人们阅读文本的方式一样,首先是文本,然后是最重要的实体,然后是下一个重要的实体。
为了理解和掌握这个问题,我必须研究什么类型的东西,或者网络理论或图论的哪个方面涉及到它。
如果有谁可以参考的话。北卡罗来纳州
发布于 2013-01-18 16:04:19
首先,我不是语言学或语言研究方面的专家。我想我明白你想做什么,但我不知道最好的方法是什么。
如果我没弄错的话,你想为你的词确定一些中心性度量(这将解释社交网络参考),找到那些与他人联系最紧密的人,是吗?
如果你尝试这样做的问题是,如果你没有事先应用标记化和词汇化过程,你肯定会发现最核心的单词是最有趣的单词(如果,那么,一些多余的形容词...)。因此,您可以仅将使用的动词的名词和词干分开,然后只有您可以尝试您的方法。
您必须记住的另一个问题是,单词的存在和稀有度都很重要(例如,请参阅tf-idf权重度量)。
总而言之,我在谷歌上进行了以下搜索:
"n gram图形语言中心词“
发现这篇论文似乎对你所问的问题很感兴趣(我可能会自己看看!):
LexRank: Graph-based Lexical Centrality as Salience in Text Summarization
https://stackoverflow.com/questions/13730777
复制相似问题