如何比较“相似”的Unicode字符？

Z时代
2024-01-10
分类：问答

我陷入一个令人惊讶的问题。

我在应用程序中加载了一个文本文件，并且有一些逻辑比较具有µ的值。

我意识到即使文本相同，比较值也是错误的。

 Console.WriteLine("μ".Equals("µ")); // returns false
 Console.WriteLine("µ".Equals("µ")); // return true

在后面的行中，字符µ被复制粘贴。

但是，这些可能不是唯一的类似字符。

C＃中有什么方法可以比较看起来相同但实际上不同的字符？

回答：

在很多情况下，你可以正常化比较之前两个Unicode字符的一定范式，他们应该能够匹配。当然，您需要使用哪种规范化形式取决于字符本身。仅仅因为它们

看起来 相似并不一定意味着它们代表相同的角色。您还需要考虑它是否适合您的用例-请参阅Jukka K. Korpela的评论。

对于这种特殊情况，如果您参考Tony的答案中的链接，则会看到U +

00B5的表显示：

分解希腊小写字母MU（U + 03BC）

这意味着U + 00B5（原始比较中的第二个字符）可以分解为U + 03BC（第一个字符）。

因此，您将使用完全兼容分解以及标准化形式KC或KD来标准化字符。这是我写来演示的一个简单示例：

using System;
using System.Text;
class Program
{
    static void Main(string[] args)
    {
        char first = 'μ';
        char second = 'µ';
        // Technically you only need to normalize U+00B5 to obtain U+03BC, but
        // if you're unsure which character is which, you can safely normalize both
        string firstNormalized = first.ToString().Normalize(NormalizationForm.FormKD);
        string secondNormalized = second.ToString().Normalize(NormalizationForm.FormKD);
        Console.WriteLine(first.Equals(second));                     // False
        Console.WriteLine(firstNormalized.Equals(secondNormalized)); // True
    }
}

有关Unicode规范化和不同规范化形式的详细信息，请参见System.Text.NormalizationForm和Unicode规范。

以上是如何比较“相似”的Unicode字符？的全部内容，来源链接： utcz.com/qa/409155.html

如何比较“相似”的Unicode字符？

回答：

其他人也看了：