首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何解析guess_language以读取30000条tweet?

如何解析guess_language以读取30000条tweet?
EN

Stack Overflow用户
提问于 2020-03-20 02:21:42
回答 1查看 117关注 0票数 0

我正在使用语言来检测学校项目的推文语言。我用熊猫来读.csv文件。我大约有30000排。

然而,我的问题是,猜测语言一次只能读一条推文。

Guess_language(“顶级新闻:

“恩”

我是python的新手,我一直在试图找出这个循环,以及它的语句,已经有一天了,他们一直只返回一条推特。

谢谢,如果这个问题很烂的话,我很抱歉。

我使用了Kareem.下面建议的代码

从guess_language import guess_language resdf = nodupdf[ nodupdf‘’text‘..apply(Guess_language) == 'en’]

它适用于小文件(100 csv),但当我将它应用于更大的文件时。它给了我这个错误。

TypeError回溯(最近一次调用)在9-10块在noeng:--> 11块‘文本’.应用(Guess_language)== 'en‘

~\Anaconda3\lib\site-packages\pandas\core\series.py in apply(self,func,convert_dtype,args,**kwds) 4040其他: 4041个值=self.astype(对象).values -> 4042映射=lib.map_infer(值,f,convert=convert_dtype)

pandas_libs\lib.pyx in pandas._libs.lib.map_infer()

~\Anaconda3\lib\site-packages\guess_language__init__.py in guess_language(文本,提示) 322“”返回ISO 639-1语言代码323“”->324个单词=WORD_RE.findall(text:MAX_LENGTH.replace(‘’,‘’)325个返回标识(单词,find_runs(单词),提示) 326

TypeError:“浮点”对象不可订阅

认为这是内存错误,我使用了块.

( noeng=pd.read_csv(r'C:\Users\jean\nodupdf.csv',chunksize=10)用于词块:语块‘文本’.应用(Guess_language)== 'en‘

我还是犯了同样的错误。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-03-20 02:37:15

你可以把每一件事都取下来,然后按这样的方式处理

代码语言:javascript
复制
resdf =  newdf[ newdf['text'].apply(guess_language) == 'en' ] 

resdf应该包含对其tweet进行英语分类的原始行。

函数apply应该将函数guess_language应用于每条tweet,并在分类后返回列值,然后使用该值只获取以en作为分类的行的索引。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60767730

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档