假设我有一个加权关键字/短语列表,如“太阳能电池板”、“屋顶”等。权重在0,1中,权重较高,表明对特定关键字的偏好较强,因此“太阳能电池板”的权重可能为0.3,“屋顶”的权重可能为0.2。关键字权重之和为1。
对于每一个关键字/短语,我还有一些上下文句子,这些句子也是加权的,带有积极的、消极的或中性的情感/内涵。例如,一个与“太阳能电池板”短语有关的上下文句子可能是“有利于环境”,它被贴上积极情绪的标签,重量为0.2。每个关键字的上下文句子的权重之和为1,因此所有关键字的所有上下文句子的权重之和为N,其中N是单个关键字的数目。
最后,我还在0,1中对关键字/短语进行加权连接,这些关键字/短语之和为1。例如,从“太阳能电池板”到“屋顶”的定向链接可能有0.2的权重,而从“屋顶”到“太阳能电池板”的定向链接的权重可能为0.4。
我想使用这些加权关键字,短语,上下文的情感标签句子和联系,以创造一个自然语言摘要。我意识到,我的工作与典型的文本摘要目标相反,但我相信,丰富的数据应该会使任务变得更容易一些。
我该怎么接近它?在尝试提取可以用于生成摘要文本的更基本的关键字之前,我是否应该先使用模型来总结每个上下文句子中包含的文本?我应该如何处理这些数据?是否值得采用两步的方法,即在第二模型将关键字和上下文句子概括为更丰富、更自然的语言之前,将其概括为基本语言?
如有任何指导或建议,我将不胜感激。
编辑:我对NLP非常陌生,所以我为我缺乏术语和数学形式而道歉。
发布于 2022-10-11 14:02:19
如果你有一个很好的分数系统的数据,我会从简单的开始,因为使用像伯特这样的神经网络建立起来可能很复杂。
简单的方法是,用分数来构建一个有意义的短语,例如:“太阳能电池板”+“屋顶”+“环境友好型”=“屋顶太阳能电池板,其对环境的影响较小(低于8克/年)”。
如果有数值的话,可以使用if / this规则和一些基本方程来实现这一点。例如,对于环境影响而言,0.2相当于(1-0.2)*10 = 8g。
然后,您可以使用像Bert这样的神经网络来改进结果,但是您需要足够的数据来训练它,使用不同的输入("0.2,0.6,0.1")及其相关的输出(->“屋顶太阳能电池板,具有较低的环境影响(低于8g的碳/年)”),而这些培训数据应该足够代表大多数常见的用例。
请参阅:https://chriskhanhtran.github.io/posts/extractive-summarization-with-bert/
https://datascience.stackexchange.com/questions/115092
复制相似问题