我正在使用语言来检测学校项目的推文语言。我用熊猫来读.csv文件。我大约有30000排。
然而,我的问题是,猜测语言一次只能读一条推文。
Guess_language(“顶级新闻:
“恩”
我是python的新手,我一直在试图找出这个循环,以及它的语句,已经有一天了,他们一直只返回一条推特。
谢谢,如果这个问题很烂的话,我很抱歉。
我使用了Kareem.下面建议的代码
从guess_language import guess_language resdf = nodupdf[ nodupdf‘’text‘..apply(Guess_language) == 'en’]
它适用于小文件(100 csv),但当我将它应用于更大的文件时。它给了我这个错误。
TypeError回溯(最近一次调用)在9-10块在noeng:--> 11块‘文本’.应用(Guess_language)== 'en‘
~\Anaconda3\lib\site-packages\pandas\core\series.py in apply(self,func,convert_dtype,args,**kwds) 4040其他: 4041个值=self.astype(对象).values -> 4042映射=lib.map_infer(值,f,convert=convert_dtype)
pandas_libs\lib.pyx in pandas._libs.lib.map_infer()
~\Anaconda3\lib\site-packages\guess_language__init__.py in guess_language(文本,提示) 322“”返回ISO 639-1语言代码323“”->324个单词=WORD_RE.findall(text:MAX_LENGTH.replace(‘’,‘’)325个返回标识(单词,find_runs(单词),提示) 326
TypeError:“浮点”对象不可订阅
认为这是内存错误,我使用了块.
( noeng=pd.read_csv(r'C:\Users\jean\nodupdf.csv',chunksize=10)用于词块:语块‘文本’.应用(Guess_language)== 'en‘
我还是犯了同样的错误。
发布于 2020-03-20 02:37:15
你可以把每一件事都取下来,然后按这样的方式处理
resdf = newdf[ newdf['text'].apply(guess_language) == 'en' ] resdf应该包含对其tweet进行英语分类的原始行。
函数apply应该将函数guess_language应用于每条tweet,并在分类后返回列值,然后使用该值只获取以en作为分类的行的索引。
https://stackoverflow.com/questions/60767730
复制相似问题