文章/答案/技术大牛

发布

社区首页 >问答首页 >在C中，UTF-8字符数不确定。

问在C中，UTF-8字符数不确定。
EN

Stack Overflow用户

提问于 2018-05-03 11:14:27

回答 1查看 659关注 0票数 1

我想计数给定的字符串计数( UTF-8 )，如果输入格式为中文或希腊语或其他UTF-8字符串，我可以得到。

计划：

#include <stdio.h>


#define VAL_E0 0xE0
#define VAL_C0 0xC0
int UILexerCheckIsMultiByte(char *pchText , int nLength)
{
  unsigned int nLen = nLength;
  printf ("%s:%d pchText:%s nLen: %d \n", __FUNCTION__, __LINE__, pchText, nLen);
  char *pchPtr = pchText;

  int tmpVal = VAL_E0;
  int nVal_C0 = VAL_C0;
  int nByteCnt = 2;
  int bIsfound = false;

  while (nLen)
  {
    if ((pchText[nLen-1] & VAL_C0) == VAL_C0)
    {
      do
      {
        if ((pchText[nLen-1] & tmpVal) == nVal_C0)
        {
          bIsfound = true;
          break;
        }

        nByteCnt++;
        tmpVal = tmpVal >> 1 | 0x80;
        nVal_C0= nVal_C0>> 1 | 0x80;
      }while(tmpVal != 0xFF);

      if (bIsfound)
        break;
    }
    nLen--;
  }
  return nByteCnt;
}

int main()
{

 if (setlocale(LC_ALL, "en_US.UTF-8") == NULL) {
    abort();
    }
  char pchBuf[80] = ""; 
  printf("\n Enter the character upto 20 in any form \n");
  scanf("%[^\n]s",pchBuf);
  int nLength=0;
  int nMaxLen=20;
  int nCharCnt = 0;

  do
  {
    if (pchBuf[nLength]& 0x80)
    {
      int nByteCnt=0;
      nByteCnt = UILexerCheckIsMultiByte(pchBuf, nMaxLen);
      nLength += nByteCnt;
      nCharCnt++;
    }
    else
    {
      nCharCnt++;
      nLength++;
    }
  }
  //while(nLength<nMaxLen);
  while(pchBuf[nLength] != '\0');
  printf ("CharCnt: %d \n", nCharCnt);
  return 0;
}

示例输出：

-> ./a.out 以任何形式输入最多20个字符UILexerCheckIsMultiByte:11 pchText:中国话不用彁字。nLen: 20 UILexerCheckIsMultiByte:11 pchText:中国话不用彁字。nLen: 20 UILexerCheckIsMultiByte:11 pchText:中国话不用彁字。nLen: 20 UILexerCheckIsMultiByte:11 pchText:中国话不用彁字。nLen: 20 UILexerCheckIsMultiByte:11 pchText:中国话不用彁字。nLen: 20 UILexerCheckIsMultiByte:11 pchText:中国话不用彁字。nLen: 20 UILexerCheckIsMultiByte:11 pchText:中国话不用彁字。nLen: 20 UILexerCheckIsMultiByte:11 pchText:中国话不用彁字。nLen: 20 pchText: 10 pchText ./a.out以任何形式输入最多20个字符，以任何形式输入

当我使用混合UTF-8字符时，计数是不确定的。

-> ./a.out 在任何形式下输入最多20个字符，<==Chinese +：11 pchText:用彁ĈĉnLen: 20 CharCnt: 6 -> ./a.在任何形式的彁用Αυ中输入最多20个字符<==Chinese +希腊语UILexerCheckIsMultiByte:11 pchText:彁用ΑυnLen: 20 CharCnt: 6

我需要做哪些修改才能得到正确的字符计数？

utf-8

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-05-06 19:37:43

主要问题是在UILexerCheckIsMultiByte中。要解码utf8流，您需要查看每个字节的第一个(最高)2位。如果它们是"01“，它是8位字符代码，如果它们是"11”，则是多字节序列的第一个字节，如果它们是"10“，则是多字节序列中的一个字节。

您的第一个二进制比较是正确的：(ch & 0xC0) == 0xC0 -这将掩盖前两位，并检查模式“11 11xxxxxx”(x的意思是不关心)

但是你的下一个比较是错的。在第一次运行中，您将检查：(ch & 0xE0) == 0xC0 -这将屏蔽前三位，并将检查模式“11 11xxxxx”，但您应该检查“10 10xxxxxx”。

因此，您可能会看到以下代码:有两个版本的strlen和一个函数来计数多字节序列的字节数。

 /* gcc -Wall -o strlen strlen.c */                       
 #include "stdio.h"                                                       

 int utf8charsize(char *s)                            
 {                                            
     int cnt=0;                                   
     if( *s ) {                                   
        cnt++;                                    
        if( (*s & 0xc0) == 0x0c0 ) { /* binary is 11xxxxxx */             
            while( (s[cnt] & 0xc0) == 0x80  ) /* binary code is 10xxxxxx */   
            cnt++;                                
        }                                     
     }                                        
     printf("-- %d\n", cnt );                             
     return cnt;                                      
 }                                            


 int utf8strlen(char *s)                                  
 {                                            
     int cnt=0;                                   
     int clen;                                    
     while(*s) {                                      
        clen=utf8charsize(s);                             
        cnt++;                                    
        s+=clen;                                  
     }                                        
     return cnt;                                      
 }                                            

 int utf8strlen2(char *s)                             
 {                                            
     int cnt=0;                                   
     while(*s) {                                      
        cnt++;                                    
        if( (*s++ & 0xc0) == 0x0c0 ) { /* binary is 11xxxxxx */           
            while( (*s & 0xc0) == 0x80  ) /* binary code is 10xxxxxx */       
            s++;                                  
        }                                     
     }                                        
     return cnt;                                      
 }                                            

 int main(int argc, char **argv)                              
 {                                            
     if( argc > 1 )                               
        printf("%d %d\n", utf8strlen(argv[1]), utf8strlen2(argv[1]));         
     return 0;                                            
     }

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50153700

复制

相似问题

问在C中，UTF-8字符数不确定。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在C中，UTF-8字符数不确定。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在C中，UTF-8字符数不确定。
EN