搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

文本数据预处理的质量检验

我开发了一个文本数据预处理管道，使用了不同的清理技术，如词干、词条化、停止字词删除等。但现在，业务团队的要求是量化预处理步骤(或它生成的文本数据)的质量。我们如何开发一些度量来评估文本数据的预处理质量？

浏览 0提问于2020-12-07得票数 1

1回答

keras LSTM的文本数据预处理

这里引用keras文档中给出的示例：AttributeError: 'float' object has no attribute 'lower'我的输入是一系列pandas文本。有人能指出我哪里做错了吗？

浏览 0提问于2017-07-17得票数 0

1回答

我正在提取积极的，消极的和中性的关键字在python.There是10,000条评论在我的评论remarks.txt文件(编码的UTF-8).I要导入文本文件，读取个别行的评论和提取单词(标记化)从评论中提到的列我用Python.I编写了一个调用get_keywords函数的小程序，我创建了get_keywords()函数，但遇到了将数据帧的每一行作为参数传递&使用迭代调用它并将其存储在相邻列中的问题。代码没有为df数据帧中的所有已处理字提供预期的列“标记”。df.iterrows(): print(index, row

浏览 17修改于2019-09-13得票数 1

1回答

文本数据预处理的正确步骤是什么？

我正在使用Airbnb数据集来预测在传输信息(文本数据)下客户的回顾分数(评分范围从0到100)。下面是我正在使用的数据预处理步骤。，有人能告诉我他们是否正确吗？列车数据预处理步骤：将punctuationremove stopwordsremove 转换为小写，删除从tf-的数据中识别的常见/罕见的单词，代码如下

浏览 0修改于2020-05-14得票数 0

回答已采纳

1回答

标签文本数据的预处理

为了训练NLP模型，需要在文本上有命名实体标签的文本数据。在许多情况下，这是由字符偏移(例如。当一个人想要对这些数据进行预处理时，重要的是将标签保持在正确的位置。例如：为了删除停止词或操作空格字符和标记将被删除。我的问题是：如果在python中已经有了实现，我也会对此感兴趣。否则，我可能也愿意自己编码。我使用NER作为这个问题

浏览 1修改于2020-07-24得票数 0

1回答

将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)

我一直在关注TensorFlow文本分类教程()，对IMDB评论进行分类。IMDB数据是keras发行版的一部分，并经过下载和预处理。我想用我自己的文本做实验。有没有一种有效的方法将我自己的文本预处理成word->int表示？我尝试过使用字典、元组和排序，但效率非常低。我有种感觉，有一种更有效的方法。我浏览了nltk和keras预处理工具，但可能忽略了其中的一些内容。

浏览 0修改于2020-05-23得票数 0

1回答

机器学习中文本数据的预处理

articles_nonNull['text']我试图使用这段代码对我的数据进行预处理我是NLP的新手，这是我第一次处理一个非常大的非结构化数据集。

浏览 1提问于2022-06-05得票数 -1

1回答

如何使用python对twitter文本数据进行预处理

在以这种格式从mongoDB检索后，我获得了文本数据：[u'In', u'love', u'#Paralympics?u'#Paralympics', u't_https://somelink', u't_https://someLink']但是，我想将列表中的所有URL替换为'URL‘，同时保留列表中的其他文本

浏览 3修改于2016-10-07得票数 0

回答已采纳

1回答

我们应该在火车/测试分割之前还是之后对文本数据进行预处理？

我阅读过许多文本监督的分类教程，并为我的数据实现了tidytext、qunateda、tm、text2vec、RTextTools。到现在为止，我有一个尚未解决的谜题。关于何时标记文本数据，似乎还没有达成共识。在火车测试之前还是之后？。在一个堆栈溢出帖子中，一些人认为在拆分之前进行标记甚至是非法的。使用dfm_match函数，quanteda包看起来像是设计用来在拆分数据之后进行标记化。其他人建议在预处理后进行拆分。我看过朱莉娅·西尔奇和埃米尔·赫维特费尔特的精彩教程。对我来说，如果我在

浏览 1修改于2020-12-24得票数 0

1回答

使用python对来自数据帧的多列的文本数据进行预处理

如何对多列进行文本预处理？我有两个文本列--参见。要做清洁工作，我必须对每一列做两次(见我的代码)。有什么聪明的方法来完成类似的任务吗？谢谢!

浏览 2提问于2019-09-24得票数 1

回答已采纳

1回答

TypeError:字符串索引必须是整数(用于情感分析的CSV文件中的文本数据预处理)

我在这个网站上找到了一些代码:()，用来在推特上进行情绪分析。我有我需要的csv文件，所以我没有构建它们，而是通过文件定义了变量。并追溯到这一行：我不知道如何绕过这个问题，同时仍然保持代码的核心功能不变。import re from nltk.tokenize

浏览 0修改于2019-05-16得票数 0

1回答

本地Sqlite3数据库:超文本预处理器

我想学习如何用PHP使用数据库，我想在PHP中使用本地数据库，我不想连接到任何远程数据库(mysql等)。我只想练习一下SQLi攻击等等。我的网站将在本地运行我的局域网。我可以使用sqlite3 PHP对我的数据库文件运行查询吗？

浏览 1提问于2020-07-29得票数 0

1回答

如何部署带有数据预处理的mlflow模型(文本数据)

我开发了keras文本分类模型。我有预处理的数据(标记化)。我已成功记录训练好的模型(mlflow.keras.log_model)。我已经使用mlflow服务为模型服务了。现在，在对文本数据进行预测时，我需要使用用于训练的相同标记器对象进行预处理。如何预处理测试数据并从服务模型中获得预测。

浏览 8提问于2020-03-13得票数 2

回答已采纳

3回答

使用Hadoop预处理文本消息的最佳方法

我正在使用Hadoop处理文本消息(SMS)。但我不确定对这些数据进行预处理的最佳方法，以便进行有效的搜索。例如，在对数据进行预处理之后，如果有人搜索“NY”，我将能够显示包含单词“NY”的消息。建议将预处理后的数据写入xml文件而不是数据库。注意:我在一个.csv文件中有大约200K的文本消息。

浏览 0提问于2011-07-01得票数 0

1回答

以前预处理过的数据

对于每一个文本，我都希望以完全相同的方式对文本进行预处理。我的预处理文本是作为一个列表的文字。不幸的是，scikit-学TfidfVectorizer似乎只接受字符串列表。train_data)是否有一种方法可以使用科学学习TfidfVectorizer直接对这种预处理的数据进行信息检索如果没有，是否可以让TfidfVectorizer进行预处理并

浏览 4修改于2015-07-10得票数 1

回答已采纳

1回答

如何对Word2Vec数据进行预处理？

我有文本数据，这是从网站爬行。我正在对数据进行预处理以训练Word2Vec模型。我应该去掉止痛药然后做柠檬化吗？如何对Word2Vec数据进行预处理？

浏览 0提问于2020-02-13得票数 2

回答已采纳

1回答

哪种格式更适合出版书籍数据集(普通的还是预处理的)？

当我决定出版作为一个数据集的书籍文本集合时，我是应该先做一些预处理，还是应该发布“纯文本”？例如，https://huggingface.co/datasets/bookcorpus是作为句子的集合发布的(因此完成了基本的预处理)，但是https://huggingface.co/datasets/bookcorpusopen是用原始文本发布的。

浏览 0提问于2022-06-21得票数 1

回答已采纳

1回答

在Keras中，序列预处理和文本预处理有什么区别？

在Keras中，我们主要有三种预处理方式，即序列预处理、文本预处理和图像预处理。然而，对我来说，我认为“序列”和“文本”的含义是一样的。如何理解这两种预处理操作的区别？

浏览 0提问于2020-11-17得票数 1

回答已采纳

2回答

用正则表达式删除单词中的空格.文本挖掘的预处理数据

虽然它看起来应该正常工作，但我的数据并没有改变。

浏览 3提问于2021-05-15得票数 2

回答已采纳

1回答

当训练数据来自is记录，推断来自原始数据时，Tensorflow估计器出口商

背景1)我有tfRecords形式的培训数据1)考虑到我将数据加载(tf.Dataset创建和预处理)作为tensorflow图的一部分这一事实，进来的原始文本会破坏这个过程吗？(特别是在tf.Dataset创建步骤中) ( 2)只加载原始文本而不是tf.

浏览 0提问于2019-02-06得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

文本数据预处理的质量检验

keras LSTM的文本数据预处理

python中的文本数据预处理

文本数据预处理的正确步骤是什么？

标签文本数据的预处理

将文本数据预处理为整数索引(如tensorFlow文本分类示例中的imdb数据集)

机器学习中文本数据的预处理

如何使用python对twitter文本数据进行预处理

我们应该在火车/测试分割之前还是之后对文本数据进行预处理？

使用python对来自数据帧的多列的文本数据进行预处理

TypeError:字符串索引必须是整数(用于情感分析的CSV文件中的文本数据预处理)

本地Sqlite3数据库:超文本预处理器

如何部署带有数据预处理的mlflow模型(文本数据)

使用Hadoop预处理文本消息的最佳方法

以前预处理过的数据

如何对Word2Vec数据进行预处理？

哪种格式更适合出版书籍数据集(普通的还是预处理的)？

在Keras中，序列预处理和文本预处理有什么区别？

用正则表达式删除单词中的空格.文本挖掘的预处理数据

当训练数据来自is记录，推断来自原始数据时，Tensorflow估计器出口商

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐