Java控制台输出的默认字符编码

Java如何确定用于的编码System.out

给定以下类别:

import java.io.File;

import java.io.PrintWriter;

public class Foo

{

public static void main(String[] args) throws Exception

{

String s = "xxäñxx";

System.out.println(s);

PrintWriter out = new PrintWriter(new File("test.txt"), "UTF-8");

out.println(s);

out.close();

}

}

它被保存为UTF-8并javac -encoding UTF-8 Foo.java在Windows系统上进行编译。

然后在git-bash控制台上(使用UTF-8字符集),我这样做:

$ java Foo

xxõ±xx

$ java -Dfile.encoding=UTF-8 Foo

xxäñxx

$ cat test.txt

xxäñxx

$ java Foo | cat

xxäñxx

$ java -Dfile.encoding=UTF-8 Foo | cat

xxäñxx

这里发生了什么?

显然,java检查它是否连接到终端,并在这种情况下更改其编码。有没有一种方法可以迫使Java简单地输出普通的UTF-8?


我也使用cmd控制台尝试了相同的操作。重定向STDOUT似乎没有任何区别。如果没有file.encoding参数,它将输出ansi编码,并输出utf8编码。

回答:

我假设您的控制台仍在cmd.exe下运行。我怀疑您的控制台真的希望使用UTF-8-我希望它真的是OEM

DOS编码(例如850或437)。

Java将在JVM初始化期间使用默认编码集对字节进行编码。

在我的电脑上复制:

java Foo

Java编码为Windows-1252;控制台解码为IBM850。结果:

java -Dfile.encoding=UTF-8 Foo

Java编码为UTF-8;控制台解码为IBM850。结果:

cat test.txt

cat将文件解码为UTF-8;cat编码为IBM850;控制台解码为IBM850。

java Foo | cat

Java编码为Windows-1252;cat解码为Windows-1252;cat编码为IBM850;控制台解码为IBM850

java -Dfile.encoding=UTF-8 Foo | cat

Java编码为UTF-8;cat解码为UTF-8;cat编码为IBM850;控制台解码为IBM850

cat的

此实现必须使用启发式方法来确定字符数据是否为UTF-8,然后将数据从UTF-8或ANSI(例如Windows-1252)转码为控制台编码(例如IBM850)。

可以使用以下命令确认:

$ java HexDump utf8.txt

78 78 c3 a4 c3 b1 78 78

$ cat utf8.txt

xxäñxx

$ java HexDump ansi.txt

78 78 e4 f1 78 78

$ cat ansi.txt

xxäñxx

命令可以做出此决定,因为e4 f1不是有效的UTF-8序列。

您可以通过以下方法更正Java输出:

  • 将控制台编码设置为系统ANSI值
  • 使用控制台类型
  • 使用一些希夫层,你与这样 的猫

HexDump 是一个简单的Java应用程序:

import java.io.*;

class HexDump {

public static void main(String[] args) throws IOException {

try (InputStream in = new FileInputStream(args[0])) {

int r;

while((r = in.read()) != -1) {

System.out.format("%02x ", 0xFF & r);

}

System.out.println();

}

}

}

以上是 Java控制台输出的默认字符编码 的全部内容, 来源链接: utcz.com/qa/399397.html

回到顶部