Java 判断字符串中是否包含中文的实例详解

Z时代
2024-01-10
分类：IT

Java判断一个字符串是否有中文是利用Unicode编码来判断，因为中文的编码区间为：0x4e00--0x9fbb，不过通用区间来判断中文也不非常精确，因为有些中文的标点符号利用区间判断会得到错误的结果。而且利用区间判断中文效率也并不高，例如:str.substring(i, i + 1).matches("[\\一-\\?]+")，就需要遍历整个字符串，如果字符串太长效率非常低，而且判断标点还会错误。这里提高一个高效准确的判断方法，使用Java中的Character类:

实例代码：


package test;   
import static java.lang.Character.UnicodeBlock.*;   
import com.google.common.base.Strings;   
public class CheckContainChinese {   
  public static void main(String[] args) {   
    String containChinese = "test,我有中文";   
    String containNoChiese = "test, i don't contain chinese";   
    System.out.println("containChinese 是否包含中文 :" + checkStringContainChinese(containChinese));   
    System.out.println("containNoChiese 是否包含中文 :" + checkStringContainChinese(containNoChiese));   
  }   
  private static boolean checkStringContainChinese(String checkStr){   
    if(!Strings.isNullOrEmpty(checkStr)){   
      char[] checkChars = checkStr.toCharArray();   
      for(int i = 0; i < checkChars.length; i++){   
        char checkChar = checkChars[i];   
        if(checkCharContainChinese(checkChar)){   
          return true;   
        }   
      }   
    }   
    return false;   
  }  
  private static boolean checkCharContainChinese(char checkChar){   
    Character.UnicodeBlock ub = Character.UnicodeBlock.of(checkChar);   
    if(CJK_UNIFIED_IDEOGRAPHS == ub || CJK_COMPATIBILITY_IDEOGRAPHS == ub || CJK_COMPATIBILITY_FORMS == ub ||   
        CJK_RADICALS_SUPPLEMENT == ub || CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A == ub || CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B == ub){   
      return true;   
    }   
    return false;   
  }   
}