首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R-Text挖掘:替换德语中的缩写、数字和符号

R-Text挖掘:替换德语中的缩写、数字和符号
EN

Stack Overflow用户
提问于 2020-05-27 23:20:20
回答 1查看 226关注 0票数 0

我想替换我文本中的缩写、数字和符号。因为我的文本是德语的,而不是英语的,所以我在转换它时有问题。

我试过了:

代码语言:javascript
复制
review_text <- replace_abbreviation(review_text)

review_text <- replace_number(review_text)

review_text <- replace_symbol(review_text)

但这只适用于英语文本,而不适用于德语。我应该补充什么,这个函数在德语中也是有效的?

EN

回答 1

Stack Overflow用户

发布于 2020-05-28 16:46:23

qdap和与qdap相关的软件包仅供英语使用。如果你想使用德语文本和ümlauts以及所有的东西,像quanteda和udpipe这样的包可以解决这个问题。但它们不处理缩写和符号。现在replace_symbol函数很容易调整,只需检查函数,复制代码来创建您自己的函数,并用德语翻译替换英语翻译。

replace_abbreviation函数指向一个替换表,其中的缩写与相应的值一起存储。您需要为德语创建自己的表。

最大的问题是将数字转换为文本。这是不同的,因为每种语言都不是真正在线可用的。对此进行搜索往往会导致将数字转换为excel中的文本。但是如果你能读懂python,你可以将python函数转换成R(或者使用网格化)来解决这个问题。请参阅Github上的python库的this link,它可以对包括德语在内的几种语言执行此操作。但我不确定这是否可以用于文本挖掘上下文。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62046686

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档