首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于字符和文本处理的资源(编码、正则表达式、NLP)

用于字符和文本处理的资源(编码、正则表达式、NLP)
EN

Stack Overflow用户
提问于 2010-05-01 02:54:28
回答 2查看 239关注 0票数 2

我想学习编码,文字和文字的基础。理解这些对于处理大量文本非常重要,无论是日志文件还是用于构建集体智能算法的文本源。我目前的知识是相当基础的:“只要我使用UTF-8,我就没事了。”

我并不是说我需要马上学习高级课程。但我需要知道:

  • 比特和字节级别的编码知识。
  • 没有在英语中使用的字符和字母。
  • 多字节编码。)我懂一些中文和日语。解析它们是很重要的。
  • 正则表达式
  • 文本处理算法。
  • 分析自然语言。

我还需要了解数学和语料库语言学。当前和未来的web (语义、智能、实时web)都需要对大文本进行处理、解析和分析.

我在找一些资源(也许是书?)让我从一些子弹开始。(我在这里发现了关于堆栈溢出的正则表达式的许多有用的讨论。因此,您不需要建议有关该主题的资源。)

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-05-01 03:08:40

  • 除了维基百科,Joel的文章 on 编码也非常好。
  • 这个免费的字符映射是所有unicode字符的一个很好的资源。
  • 这个正则表达式 教程可能会有所帮助。
  • 特别是在NLP日语上,您可以查看这个日本NLP项目。
  • 文本处理上,开源项目可能很有用。
票数 3
EN

Stack Overflow用户

发布于 2010-05-01 02:56:28

与大多数一般的“我想学习X主题”问题一样,维基百科是一个很好的起点:

编码

正在处理中

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2748701

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档