Java读取具有7000万行文本的大文本文件
我有一个包含7000万行文本的大型测试文件。我必须逐行阅读文件。
我使用了两种不同的方法:
InputStreamReader isr = new InputStreamReader(new FileInputStream(FilePath),"unicode");BufferedReader br = new BufferedReader(isr);
while((cur=br.readLine()) != null);
和
LineIterator it = FileUtils.lineIterator(new File(FilePath), "unicode");while(it.hasNext()) cur=it.nextLine();
是否有另一种方法可以使此任务更快?
最好的祝福,
回答:
1)我确定速度没有差异,两者都在内部使用FileInputStream和缓冲
2)您可以进行测量并亲自查看
3)虽然没有性能优势,但我喜欢1.7方法
try (BufferedReader br = Files.newBufferedReader(Paths.get("test.txt"), StandardCharsets.UTF_8)) { for (String line = null; (line = br.readLine()) != null;) {
//
}
}
4)基于扫描仪的版本
try (Scanner sc = new Scanner(new File("test.txt"), "UTF-8")) { while (sc.hasNextLine()) {
String line = sc.nextLine();
}
// note that Scanner suppresses exceptions
if (sc.ioException() != null) {
throw sc.ioException();
}
}
5)这可能比其余的更快
try (SeekableByteChannel ch = Files.newByteChannel(Paths.get("test.txt"))) { ByteBuffer bb = ByteBuffer.allocateDirect(1000);
for(;;) {
StringBuilder line = new StringBuilder();
int n = ch.read(bb);
// add chars to line
// ...
}
}
它需要一些编码,但是由于,它确实可以更快ByteBuffer.allocateDirect
。它允许操作系统从文件ByteBuffer
直接读取字节,而无需复制
6)并行处理肯定会提高速度。创建一个大字节缓冲区,运行多个任务,将文件中的字节并行读取到该缓冲区中,当准备好找到行的第一行时,创建一个String
,然后查找下一个…
以上是 Java读取具有7000万行文本的大文本文件 的全部内容, 来源链接: utcz.com/qa/411235.html