文章/答案/技术大牛

发布

社区首页 >问答首页 >用C从输入文件中读取CJK字符

问用C从输入文件中读取CJK字符
EN

Stack Overflow用户

提问于 2012-10-08 13:33:49

回答 3查看 586关注 0票数 0

我有一个文本文件，其中可以包含中文，日文，韩文(CJK)和英文字符的混合。我必须验证文件中的英文字符。只有当一行以'$‘字符开始时，才允许该文件包含CJK字符，该字符表示我的文本文件中的注释。通过网络搜索，我发现我可以使用fgetws()和wchar_t类型来读取宽字符。

Q1)，但我想知道CJK字符将如何存储在我的文本文件中-字节顺序等。

Q2)如何遍历CJK字符。因为Unicode字符可以有1到6个字节，所以我不能使用i++。

任何帮助都将不胜感激。

非常感谢。

unicode

utf-8

cjk

wchar

回答 3

Stack Overflow用户

发布于 2012-10-09 20:08:45

您需要将UTF-8文件读取为一系列UTF-32代码点。例如：

std::shared_ptr<FILE> f(fopen(filename, "r"), fclose);
uint32_t c = 0;
while (utf8_read(f.get(), c))
{
    if (is_english_char(c))
        ...
    else if (is_cjk_char(c))
        ...
    else
        ...
}

其中utf8_read具有签名：

bool utf8_read(FILE *f, uint32_t &c);

现在，根据第一个字节的值，utf8_read可以读取1-4个字节。请参阅http://en.wikipedia.org/wiki/UTF-8、谷歌获取算法或使用已有的库函数。

使用UTF-32码点，您现在可以检查范围。对于英语，您可以检查它是否是ASCII (c < 0x7F)或Latin字符(包括支持从法语等导入的单词的重音字符)。您可能还希望排除不可打印的控制字符(例如0x01)。

对于Latin和/或CJK字符检查，您可以检查字符是否在给定的代码块中(有关码点范围，请参见http://www.unicode.org/Public/UNIDATA/Blocks.txt )。这是最简单的方法。

如果您使用的是具有Unicode支持且具有书写脚本检测功能的库(例如glib库)，则可以使用脚本类型来检测字符。或者，您也可以从http://www.unicode.org/Public/UNIDATA/Scripts.txt获取数据

Name     : Code      : Language(s)
=========:===========:========================================================
Common   : Zyyy      : general punctuation / symbol characters
Latin    : Latn      : Latin languages (English, German, French, Spanish, ...)
Han      : Hans/Hant : Chinese characters (Chinese, Japanese)
Hiragana : Hira      : Japanese
Katakana : Kana      : Japanese
Hangul   : Hang      : Korean

注意:脚本代码来自http://www.iana.org/assignments/language-subtag-registry (Type == 'script')。

票数 1

Stack Overflow用户

发布于 2012-10-08 13:47:37

您需要了解UTF-8并使用一些UTF8处理库(或编写自己的代码)。仅供参考，Glib (来自GTK)具有UTF-8处理函数，能够处理可变长度的UTF-8字符和字符串。还有其他的UTF-8库，例如GNU libc中的iconv和ICU等。

UTF-8定义了多字节UTF8字符的字节顺序和内容，例如中文字符。

票数 0

Stack Overflow用户

发布于 2012-10-08 17:17:05

我粘贴了一个示例程序来演示wchar_t处理。希望这能帮助到别人。

#include <stdio.h>
#include <locale.h>
#include <wchar.h>
#define BUFLEN 1024
int main() {
  wchar_t *wmessage=L"Lets- beginめん（下）　震災後、保存-食で-脚光-（経済ナビゲーター）-lets- end";
  wchar_t warray[BUFLEN + 1];
  wchar_t a = L'z';
  int i=0;
  FILE *fp;
  wchar_t *token = L"-";
  wchar_t *state;
  wchar_t *ptr;
  setlocale(LC_ALL, "");
  /* FIle in current dirrctory containing CJK chars */
  fp = fopen("input", "r");
  if (fp == NULL) {
      printf("%s\n", "Cannot open file!!!");
      return (-1);
  }
  fgetws(warray, BUFLEN, fp);
  wprintf(L"\n *********************START reading from file*******************************\n");
  wprintf(L"%ls\n",warray);
  wprintf(L"\n*********************END reading from file*******************************\n");
  fclose(fp);
  wprintf(L"printing character %lc = <0x%x>\n", a, a);
  wprintf(L"\n*********************START Checking string for Japanese*******************************\n");
  for(i=0;wmessage[i] != '\0';i++) {
      if (wmessage[i] > 0x7F) {
          wprintf(L"\n This is non-ASCII <0x%x> <%lc>", wmessage[i],  wmessage[i]);
      } else {
          wprintf(L"\n This is ASCII <0x%x> <%lc>", wmessage[i],  wmessage[i]);
      }
  }
  wprintf(L"\n*********************END Checking string for Japanese*******************************\n");
  wprintf(L"\n*********************START Tokenizing******************************\n");
  state = wcstok(warray, token, &ptr);
  while (state != NULL) {
      wprintf(L"\n %ls", state);
      state = wcstok(NULL, token, &ptr);
  }
  wprintf(L"\n*********************END Tokenizing******************************\n");
  return 0;
}

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/12775835

复制

相似问题

问用C从输入文件中读取CJK字符
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用C从输入文件中读取CJK字符EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用C从输入文件中读取CJK字符
EN