搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

TextRank算法是否可以归类为无监督机器学习？

TextRank是一种自动文本摘要的方法。许多人将其归类为“无监督”方法。我想知道这是否意味着TextRank被归类为一种无监督的机器学习技术。

浏览 2提问于2017-05-29得票数 1

1回答

基于深度学习的文本分类

我有用户的问题，我想要自动分类，而不是手动标记他们。什么样的深度学习方法才能更好地从文本中进行文本分类(如此无监督)。这些算法必须依赖于字嵌入吗？

浏览 0提问于2018-07-04得票数 0

2回答

分段多语言并行文本

我有多语言文本，其中包含一条被翻译成几种语言的消息。例如：Russian message命令不准确。我想设计一种有监督/无监督的学习算法来自动进行分割，并提取每个翻译，以建立一个并行的数据语料库。你能提出一些文件/方法吗？我无法获得适当的关键字谷歌。

浏览 2修改于2014-04-11得票数 1

回答已采纳

1回答

有没有一种无监督的聚类技术可以自己识别数字聚类？

我在gensim，find text，sklearn上检查了无监督聚类，但没有找到任何文档，在这些文档中，我可以使用无监督学习对文本数据进行聚类，而不是提到要识别的聚类数量例如，在sklearn KMneans在我的例子中，我有文本，它应该自动识别其中的聚类数量，并对文本进行聚类。任何参考文章或链接非常感谢。

浏览 0修改于2018-09-21得票数 0

3回答

如何从Project Gutenberg文本中剥离页眉/页脚？

我尝试了各种方法从project Gutenberg文本中剥离许可证，以用作语言学习项目的语料库，但我似乎想不出一个无监督的、可靠的方法。到目前为止，我想出的最好的启发式方法是剥离前28行和最后398行，这适用于大量文本。任何关于如何自动剥离文本的建议(这对于许多文本非常相似，但在每种情况下都略有不同，以及一些不同的模板)，以及如何验证文本是否已被准确剥离的建议，都将非常有用。

浏览 0修改于2011-04-14得票数 20

回答已采纳

1回答

创建包含相似文本的文本聚类

我想对文本做类似的操作。我想创建包含相似文本的自动聚类。例如，cluster-1可以包含代表职业母亲的所有文本，cluster-2可以包含代表人们谈论食物等内容的所有文本。我知道这必须是无监督的学习。我还检查了google的tensorflow，看看是否可以从中获得一些东西，但在它的文档中没有找到任何与文本聚类相关的内容。

浏览 1提问于2018-06-11得票数 0

2回答

抽取文本摘要，作为一种使用深度网络的分类问题

我想实现一个文本摘要系统。我已经尝试了一种抽象的方法，现在我正在尝试一种抽象化的方法。目前的采掘方法(Textrank，Lexrank等)并没有提供最佳的性能。有人建议我把它当作一项无监督的学习任务，使用自动编码器/RBM或K均值或任何其他无监督学习算法将句子归类为重要的或不重要的。这样的事可行吗？

浏览 0修改于2017-06-30得票数 2

2回答

连续训练监督学习问题

注意，我主要处理文本数据(NLP问题)。无监督分类(问题:在封闭域问题上不太有效，因为大多数无监督模型要么是统计性的，提供了公正的准确性，要么是不合适的，或者接受了公共领域数据的培训)。强化学习(问题:现实世界的NLP数据并没有贴上标签，不像一辆自动驾驶的汽车，在那里反馈是即时的)

浏览 0修改于2020-08-06得票数 1

2回答

非文本数据的主题模型？

我希望在一个数据集上使用一个无监督的聚类，其中每个观察都有一个文本和非文本特性的混合。使用自动编码器(还是嵌入？)为什么主题模型(在我的经验中)不常见于非文本数据？这仅仅是他们的名字/原始应用程序的遗物，还是有更基本的东西？谢谢!

浏览 0提问于2019-12-09得票数 0

1回答

我正试图为文本类型的传输问题建立一个编解码模型。问题是我在这两种样式之间没有并行数据，所以我需要在一个无监督的环境中训练模型。我见过的一些文章使用自动编码器分别训练编码器和解码器组件。通过将问题设置为自动编码器，他们可以通过将目标序列(等于输入序列)传递到解码器中来训练解码器。(以下是一些例子，https://arxiv.org/pdf/1711.06861.pdf，https://arxiv.org/pdf/1804.04

浏览 0提问于2018-07-07得票数 2

回答已采纳

1回答

基于窗口的排序是为LSTM获取更多培训数据的好主意吗？

我试图做一个无监督的自动编码器为时间序列使用LSTMs的孤立点检测。这里有多个时间序列，整个序列被认为是一个离群点。然而，我只需要处理大约25-30个时间序列实例(尽管每个序列包含10k点)。我想知道，为每个时间序列创建滑动窗口以生成更多的数据，对于更准确地训练自动编码器是否是一个好主意。而且，在这种情况下，如何合并结果来有选择地识别原来的25-30个时间序列中的哪一个是离群点？

浏览 0提问于2020-09-18得票数 1

1回答

从纯文本中提取结构化数据的实用方法:寻找想法和反馈

我没有那么先进的NLP/文本挖掘技术，可以在生产中实现，所以我在这里寻找一些关于我的想法的意见：StanfordNLPBuild 使用一个普通的NLP库，这是一个典型的预处理管道备选方案c)：无监督学习(选项c)是我最喜欢的，也是技术上最有趣的选项，但我刚刚开始阅读这个主题我对此有一些想法：如何将自动编码器指向我特别感兴趣的信息？--我读到

浏览 3修改于2020-06-20得票数 0

1回答

是否有无监督培训的情感论坛数据？

其想法是：这将是我的第一个机器学习项目(作为一个概念的证明)，因此，任何意见将非常感谢。我发现的最大问题是，我想要制作一个无监督培训，并且我需要一个样本数据集来进行培训。问题:是否有任何已知的论坛情绪数据可用于无监督的培训？

浏览 0提问于2018-10-17得票数 0

2回答

如何基于训练数据识别文本相似度？

让我们假设：Doc No: 2,4,9 - Belongs to Type BDoc No, 6,11 - Belongs to No one 现在，让我们假设我有新来的文件- 11,12,13 ..依此类推，我想知道它们属于哪种类型(A、B、C或无)，这是基于该类型中现有文档的文本相似性我是否应该创建自己的数据集，并将其视为一个受监督的问题？

浏览 0修改于2020-12-15得票数 2

2回答

深信念网络与卷积神经网络

个神经元，为了训练输入层和HL1之间的权重( W1 )，我使用了一个AutoEncoder (2500 -1000-2500)，并学习了大小为2500×1000的W1(这是无监督学习)。然后，我通过第一个隐藏层转发所有图像以获得一组特征，然后使用另一个自动编码器(1000-100-1000)获得下一组特征，最后使用softmax层(100-10)进行分类。(只有学习最后一层的权重(HL2 -输出，即软件最大层)才是监督学习)。 (我可以使用RBM而不是自动编码器)。在学习权重时，我不像在

浏览 8提问于2014-07-03得票数 44

回答已采纳

2回答

图像中的无监督异常检测

由于缺乏异常图像，我试图用无监督的方式来解决这个问题。直到现在，我训练了一个变分式自动编码器和一个具有“好”图像的生成对抗性网络。现在，我有了一个编解码网络，它能够生成图像而不出现异常。我是在正确的路径上，还是有其他/更好的方法来进行无监督的异常检测？ PS:只有少数有异常的图像(<10幅图像)，但许多图像没有异常。

浏览 0修改于2018-03-22得票数 5

0回答

Vim:为纯文本文件生成目录(不是Markdown)？

对于在Vim中自动生成纯文本文件(.txt或无扩展名)中的目录，有什么方法/建议吗？其中(为方便起见)标头可以采用markdown语法： Lorem ipsum dolor sit amet, consectetur adipiscing elit

浏览 8提问于2018-07-16得票数 1

回答已采纳

2回答

Keras:具有一个输入和两个输出的模型，在不同的数据上联合训练(半监督学习)

我想用Keras编码，这是一个神经网络，既是一个自动编码器，也是一个半监督学习的分类器。总而言之:如果模型具有相同的输入数据形状和相同的“编码”卷积层，但会分成两个头(分叉式)，那么就有一个分类头和一个解码头，在某种程度上，无监督自动编码器将有助于分类头的良好学习。但在Keras中，事情是更高层次的，我觉得所有对".fit“的调用都必须一次提供所有数据(所以它会迫使我将分类头和自动编码头绑定到一个时间步中)。shape=(32, 32, 3)) cnn_feature_map

浏览 0提问于2017-06-01得票数 1

1回答

如何在Groovy中制作自定义文件

我有一个由一系列标头组成的文本文件，每个标头都有对应于该标头的文件的路径列表C:\cygwin\home\pro-services\git\mongodb\mongo\client\gridfs.cppC:\cygwin\home\pro-services\git\mongodb\mongo\client\model.cppC:\cygwin\home\pro-services我完全是Groovy的新手；我如何自动创建这些文件？

浏览 1修改于2011-10-21得票数 0

回答已采纳

1回答

使用gensim构建的doc2vec模型的GridSearch

我的训练数据由文本文档组成，但没有任何标签。也就是说，我只有“x”，没有“y”。我在这里发现了一些与我正在尝试做的事情相关的问题，但所有的解决方案都是针对有监督的模型提出的，但没有一个像我的那样针对无监督模型。下面是我训练doc2vec模型的代码： self, epochs: int=10, learning_rate

浏览 4修改于2018-10-18得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页

点击加载更多

TextRank算法是否可以归类为无监督机器学习？

基于深度学习的文本分类

分段多语言并行文本

有没有一种无监督的聚类技术可以自己识别数字聚类？

如何从Project Gutenberg文本中剥离页眉/页脚？

创建包含相似文本的文本聚类

抽取文本摘要，作为一种使用深度网络的分类问题

连续训练监督学习问题

非文本数据的主题模型？

训练编码器.使用解码器输出的解码器

基于窗口的排序是为LSTM获取更多培训数据的好主意吗？

从纯文本中提取结构化数据的实用方法:寻找想法和反馈

是否有无监督培训的情感论坛数据？

如何基于训练数据识别文本相似度？

深信念网络与卷积神经网络

图像中的无监督异常检测

Vim:为纯文本文件生成目录(不是Markdown)？

Keras:具有一个输入和两个输出的模型，在不同的数据上联合训练(半监督学习)

如何在Groovy中制作自定义文件

使用gensim构建的doc2vec模型的GridSearch

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐