腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
文本
数据
预处理
的质量检验
我开发了一个
文本
数据
预处理
管道,使用了不同的清理技术,如词干、词条化、停止字词删除等。但现在,业务团队的要求是量化
预处理
步骤(或它生成的
文本
数据
)的质量。我们如何开发一些度量来评估
文本
数据
的
预处理
质量?
浏览 0
提问于2020-12-07
得票数 1
1
回答
keras LSTM的
文本
数据
预处理
这里引用keras文档中给出的示例:AttributeError: 'float' object has no attribute 'lower'我的输入是一系列pandas
文本
。 有人能指出我哪里做错了吗?
浏览 0
提问于2017-07-17
得票数 0
1
回答
python中的
文本
数据
预处理
我正在提取积极的,消极的和中性的关键字在python.There是10,000条评论在我的评论remarks.txt文件(编码的UTF-8).I要导入
文本
文件,读取个别行的评论和提取单词(标记化)从评论中提到的列我用Python.I编写了一个调用get_keywords函数的小程序,我创建了get_keywords()函数,但遇到了将
数据
帧的每一行作为参数传递&使用迭代调用它并将其存储在相邻列中的问题。代码没有为df
数据
帧中的所有已处理字提供预期的列“标记”。df.iterrows(): print(index, row
浏览 17
修改于2019-09-13
得票数 1
1
回答
文本
数据
预处理
的正确步骤是什么?
我正在使用Airbnb
数据
集来预测在传输信息(
文本
数据
)下客户的回顾分数(评分范围从0到100)。下面是我正在使用的
数据
预处理
步骤。,有人能告诉我他们是否正确吗?列车
数据
预处理
步骤: 将punctuationremove stopwordsremove 转换为小写,删除从tf-的
数据
中识别的常见/罕见的单词,代码如下
浏览 0
修改于2020-05-14
得票数 0
回答已采纳
1
回答
标签
文本
数据
的
预处理
为了训练NLP模型,需要在
文本
上有命名实体标签的
文本
数据
。在许多情况下,这是由字符偏移(例如。当一个人想要对这些
数据
进行
预处理
时,重要的是将标签保持在正确的位置。例如:为了删除停止词或操作空格字符和标记将被删除。我的问题是: 如果在python中已经有了实现,我也会对此感兴趣。否则,我可能也愿意自己编码。我使用NER作为这个问题
浏览 1
修改于2020-07-24
得票数 0
1
回答
将
文本
数据
预处理
为整数索引(如tensorFlow
文本
分类示例中的imdb
数据
集)
我一直在关注TensorFlow
文本
分类教程(),对IMDB评论进行分类。IMDB
数据
是keras发行版的一部分,并经过下载和
预处理
。我想用我自己的
文本
做实验。有没有一种有效的方法将我自己的
文本
预处理
成word->int表示?我尝试过使用字典、元组和排序,但效率非常低。我有种感觉,有一种更有效的方法。我浏览了nltk和keras
预处理
工具,但可能忽略了其中的一些内容。
浏览 0
修改于2020-05-23
得票数 0
1
回答
机器学习中
文本
数据
的
预处理
articles_nonNull['text']我试图使用这段代码对我的
数据
进行
预处理
我是NLP的新手,这是我第一次处理一个非常大的非结构化
数据
集。
浏览 1
提问于2022-06-05
得票数 -1
1
回答
如何使用python对twitter
文本
数据
进行
预处理
在以这种格式从mongoDB检索后,我获得了
文本
数据
:[u'In', u'love', u'#Paralympics?u'#Paralympics', u't_https://somelink', u't_https://someLink']但是,我想将列表中的所有URL替换为'URL‘,同时保留列表中的其他
文本
浏览 3
修改于2016-10-07
得票数 0
回答已采纳
1
回答
我们应该在火车/测试分割之前还是之后对
文本
数据
进行
预处理
?
我阅读过许多
文本
监督的分类教程,并为我的
数据
实现了tidytext、qunateda、tm、text2vec、RTextTools。到现在为止,我有一个尚未解决的谜题。关于何时标记
文本
数据
,似乎还没有达成共识。在火车测试之前还是之后?。在一个堆栈溢出帖子中,一些人认为在拆分之前进行标记甚至是非法的。使用dfm_match函数,quanteda包看起来像是设计用来在拆分
数据
之后进行标记化。其他人建议在
预处理
后进行拆分。我看过朱莉娅·西尔奇和埃米尔·赫维特费尔特的精彩教程。对我来说,如果我在
浏览 1
修改于2020-12-24
得票数 0
1
回答
使用python对来自
数据
帧的多列的
文本
数据
进行
预处理
如何对多列进行
文本
预处理
?我有两个
文本
列--参见。要做清洁工作,我必须对每一列做两次(见我的代码)。有什么聪明的方法来完成类似的任务吗?谢谢!
浏览 2
提问于2019-09-24
得票数 1
回答已采纳
1
回答
TypeError:字符串索引必须是整数(用于情感分析的CSV文件中的
文本
数据
预处理
)
我在这个网站上找到了一些代码:(),用来在推特上进行情绪分析。我有我需要的csv文件,所以我没有构建它们,而是通过文件定义了变量。 并追溯到这一行:我不知道如何绕过这个问题,同时仍然保持代码的核心功能不变。import re from nltk.tokenize
浏览 0
修改于2019-05-16
得票数 0
1
回答
本地Sqlite3
数据
库:超
文本
预处理
器
我想学习如何用PHP使用
数据
库,我想在PHP中使用本地
数据
库,我不想连接到任何远程
数据
库(mysql等)。我只想练习一下SQLi攻击等等。我的网站将在本地运行我的局域网。我可以使用sqlite3 PHP对我的
数据
库文件运行查询吗?
浏览 1
提问于2020-07-29
得票数 0
1
回答
如何部署带有
数据
预处理
的mlflow模型(
文本
数据
)
我开发了keras
文本
分类模型。我有
预处理
的
数据
(标记化)。我已成功记录训练好的模型(mlflow.keras.log_model)。我已经使用mlflow服务为模型服务了。现在,在对
文本
数据
进行预测时,我需要使用用于训练的相同标记器对象进行
预处理
。如何
预处理
测试
数据
并从服务模型中获得预测。
浏览 8
提问于2020-03-13
得票数 2
回答已采纳
3
回答
使用Hadoop
预处理
文本
消息的最佳方法
我正在使用Hadoop处理
文本
消息(SMS)。但我不确定对这些
数据
进行
预处理
的最佳方法,以便进行有效的搜索。例如,在对
数据
进行
预处理
之后,如果有人搜索“NY”,我将能够显示包含单词“NY”的消息。建议将
预处理
后的
数据
写入xml文件而不是
数据
库。 注意:我在一个.csv文件中有大约200K的
文本
消息。
浏览 0
提问于2011-07-01
得票数 0
1
回答
以前
预处理
过的
数据
对于每一个
文本
,我都希望以完全相同的方式对
文本
进行
预处理
。我的
预处理
文本
是作为一个列表的文字。不幸的是,scikit-学TfidfVectorizer似乎只接受字符串列表。train_data)是否有一种方法可以使用科学学习TfidfVectorizer直接对这种
预处理
的
数据
进行信息检索如果没有,是否可以让TfidfVectorizer进行
预处理
并
浏览 4
修改于2015-07-10
得票数 1
回答已采纳
1
回答
如何对Word2Vec
数据
进行
预处理
?
我有
文本
数据
,这是从网站爬行。我正在对
数据
进行
预处理
以训练Word2Vec模型。我应该去掉止痛药然后做柠檬化吗?如何对Word2Vec
数据
进行
预处理
?
浏览 0
提问于2020-02-13
得票数 2
回答已采纳
1
回答
哪种格式更适合出版书籍
数据
集(普通的还是
预处理
的)?
当我决定出版作为一个
数据
集的书籍
文本
集合时,我是应该先做一些
预处理
,还是应该发布“纯
文本
”?例如,https://huggingface.co/datasets/bookcorpus是作为句子的集合发布的(因此完成了基本的
预处理
),但是https://huggingface.co/datasets/bookcorpusopen是用原始
文本
发布的。
浏览 0
提问于2022-06-21
得票数 1
回答已采纳
1
回答
在Keras中,序列
预处理
和
文本
预处理
有什么区别?
在Keras中,我们主要有三种
预处理
方式,即序列
预处理
、
文本
预处理
和图像
预处理
。然而,对我来说,我认为“序列”和“
文本
”的含义是一样的。如何理解这两种
预处理
操作的区别?
浏览 0
提问于2020-11-17
得票数 1
回答已采纳
2
回答
用正则表达式删除单词中的空格.
文本
挖掘的
预处理
数据
虽然它看起来应该正常工作,但我的
数据
并没有改变。
浏览 3
提问于2021-05-15
得票数 2
回答已采纳
1
回答
当训练
数据
来自is记录,推断来自原始
数据
时,Tensorflow估计器出口商
背景1)我有tfRecords形式的培训
数据
1)考虑到我将
数据
加载(tf.Dataset创建和
预处理
)作为tensorflow图的一部分这一事实,进来的原始
文本
会破坏这个过程吗?(特别是在tf.Dataset创建步骤中) ( 2)只加载原始
文本
而不是tf.
浏览 0
提问于2019-02-06
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券