首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于神经网络输入的文本字符串处理

用于神经网络输入的文本字符串处理
EN

Stack Overflow用户
提问于 2013-02-09 00:16:08
回答 5查看 25.2K关注 0票数 31

我知道ANN输入必须规范化、标准化等。撇开各种ANN的特点和模型不谈,如何在{0,1}范围内或在{-1,1}范围之间对UTF-8编码文本进行预处理,然后作为神经网络的输入?我一直在谷歌上搜索这个,但是找不到任何信息(我可能使用了错误的术语)。

  1. 这有意义吗?
  2. 这不就是神经网络对文本进行预处理的方式吗?
  3. 还有别的选择吗?

2013年11月最新情况

我早就接受了皮特的回答是正确的。然而,我有严重的怀疑,主要是由于最近我一直在研究符号知识和安的。

Dario Floreano和Claudio Mattiussi在他们的书中解释说,通过使用分布式编码,这样的处理确实是可能的。

事实上,如果你尝试谷歌( google )的学者搜索,就会发现大量神经科学的文章和论文,这些文章和论文都是关于大脑如何利用不信任的编码来编码象征性知识的。

Teuvo Kohonen在他的论文“自组织地图”中解释道:

人们可能会认为,将神经适应律应用于符号集(被视为一组矢量变量)可能会创建一个地形图,显示符号之间的“逻辑距离”。然而,与连续数据相比,符号的性质不同,存在着一个问题。对于后者,相似性总是以一种自然的方式出现,因为它们的连续编码之间的度量差异。这不再适用于离散的符号项目,如未定义度量的单词。在符号的本质上,它的意义与它的编码是分离的。

然而,Kohonen确实设法处理了SOM中的符号信息!

此外,教授阿尔弗雷德·阿尔茨博士( Alfred )在他的论文“神经网络与符号知识加工的集成”中,准确地讨论了如何处理ANN中的符号知识(如文本),Ultsch博士提供了处理符号知识的下列方法:神经逼近推理、神经统一、反思和集成知识获取。尽管在谷歌学者或其他任何地方找不到这方面的信息。

皮特在他的答案是正确的语义学。ANN中的语义通常是断开的。然而,在参考文献的基础上,我们了解了研究人员如何使用RBMs,训练他们识别不同单词输入的语义上的相似性,因此不应该不可能有语义,而是需要分层的方法,如果需要语义,则需要二级人工神经网络。

用亚符号神经网络处理自然语言,Risto Miikkulainen,1997 关于Word观测的受限Boltzmann机器的培训,G.E.Dahl,Ryan.P.Adams,H.Rarochelle,2012年

2021年1月最新情况

在过去的几年里,NLP和深度学习领域的研究出现了复苏,自从我提出这个问题以来。现在有了机器学习模型,它们以许多不同的方式解决了我想要达到的目标。

对于任何想知道如何在深度学习或神经网络中对文本进行预处理的人来说,这里有几个有用的话题,它们都不是学术性的,但很容易理解,并且应该让你开始解决类似的任务:

在我提出这个问题时,RNN、CNN和VSM即将开始使用,现在大多数深度学习框架都支持广泛的NLP支持。希望上面的内容能有所帮助。

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2013-02-21 16:57:11

我将继续总结我们的讨论,作为这里的答案。

你的目标是能够将文本融入你的神经网络。我们发现传统的ANNs并不适合分析文本。对这种情况的根本解释是基于这样的观点,即an操作于通常是一个连续值范围的输入,而对于一个输入来说,两个值的接近意味着某种意义上的接近。单词没有这种接近性的概念,因此,没有真正的数字编码,可以作为输入到一个人工神经网络。

另一方面,一种可行的解决方案是使用一种更传统的语义分析方法,它可以为一系列主题生成情感范围,然后这些主题及其情感值可能被用作人工神经网络的输入。

票数 19
EN

Stack Overflow用户

发布于 2013-02-20 10:07:00

作为对你的评论的回应,不,你提议的方案不太合理。人工神经元的自然输出代表一个连续的或至少一个二进制值。在庞大的离散枚举(如UTF-8字符)和浮点值表示的连续范围之间进行映射是没有意义的。当这些数字可以很容易地映射到换行符和字符"a“时,ANN的作用必然就像0.1243573是一个非常好的逼近0.1243577,例如,这对彼此都不是很好的近似。

坦率地说,对于“通用unicode字符串”作为ANN的输入没有合理的表示。一个合理的表示取决于你所做的事情的细节。这取决于你对下列问题的回答:

  • 您是否期望单词出现在输入字符串中,而不是字符块中?你期望在字符串中出现什么词?
  • 输入字符串的长度分布是什么?
  • 输入字符串的预期熵是多少?
  • 您是否对字符串的外观有任何特定领域的知识?

最重要的是

  • 你想用安做什么?这是,而不是,你可以忽略它。

这是可能的,你可能有一个设置,其中没有翻译,实际上将允许你做你想要的神经网络。除非你回答这些问题(在上面的评论中你绕开了它们),否则就不可能给出一个好的答案。

我可以举个例子来回答,如果你碰巧对上面的问题给出了一些答案的话,那就有效了。例如,如果你用任意长度的字符串阅读,但由一个由空格分隔的小词汇表组成,那么我会建议一个翻译方案,其中你为词汇中的每个单词输入N个,然后使用一个递归神经网络一次输入一个单词,将相应的输入设置为1,其他所有输入设置为0。

票数 10
EN

Stack Overflow用户

发布于 2013-08-13 17:13:36

我认为,将文本(编码为字符级)提供给一个深层次的信仰网络,以了解它能够发现语言的哪些特性,这将是非常吸引人的。

最近在神经网络语言建模方面做了大量的工作(主要是在单词级,但也在字符级)。

有关更多信息,请参见这些链接。

http://www.stanford.edu/group/pdplab/pdphandbook/handbookch8.html http://code.google.com/p/word2vec/

单词向量是通过在大量维基百科文章的语料库上进行训练来编码的。并且能够获得语义和句法特征,这允许在它们之间定义“距离”。

最近人们发现,矢量这个词捕捉到了许多语言规律,例如矢量运算矢量(‘king’)-矢量(‘man’)+向量(‘女性’)接近于矢量(‘皇后’)。

同时也可以看到Ilya关于生成随机字符的这篇伟大的研究论文,这篇文章展示了在维基百科接受训练后英语语言的特点。神奇的东西!

http://www.cs.toronto.edu/~ilya/pubs/2011/LANG-RNN.pdf http://www.cs.toronto.edu/~ilya/rnn.html (在线文本生成文本演示-非常酷!)

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14783431

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档