Java POI 打开大文件慢的优化方法?

Java POI 打开大文件时太慢了有没有优化的办法

打开一个大文件要很久,有没有优化的办法


回答:

一般这种可以通过并发来解决读取缓慢的问题
或者换个其他组件(推荐)
解决方案一:xlsx-streamer
采用分段缓存的方式加载数据到内存中,此种方式在创建Workbook对象时借助xlsx-streamer(StreamingReader) 来创建一个缓冲区域批量地读取文件 ,因此不会将整个文件实例化到对象当中
引入依赖:

<!-- excel工具 -->

<dependency>

<groupId>org.apache.poi</groupId>

<artifactId>poi-ooxml</artifactId>

<version>${poi.version}</version>

</dependency>

<!-- 读取大量excel数据时使用 -->

<dependency>

<groupId>com.monitorjbl</groupId>

<artifactId>xlsx-streamer</artifactId>

<version>2.1.0</version>

</dependency>

示例代码:

    /**

* 大批量数据读取 十万级以上

* 思路:采用分段缓存加载数据,防止出现OOM的情况

*

* @param file

* @throws Exception

*/

public static void readLagerExcel(File file) throws Exception {

InputStream inputStream = new FileInputStream(file);

long start = System.currentTimeMillis();

try (Workbook workbook = StreamingReader.builder()

.rowCacheSize(10 * 10) //缓存到内存中的行数,默认是10

.bufferSize(1024 * 4) //读取资源时,缓存到内存的字节大小,默认是1024

.open(inputStream)) { //打开资源,可以是InputStream或者是File,注意:只能打开.xlsx格式的文件

Sheet sheet = workbook.getSheetAt(0);

log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);

//遍历所有的行

for (Row row : sheet) {

System.out.println("开始遍历第" + row.getRowNum() + "行数据:");

//遍历所有的列

for (Cell cell : row) {

System.out.print(cell.getStringCellValue() + " ");

}

System.out.println(" ");

}

//总数

System.out.println("读取结束行数:" + sheet.getLastRowNum());

}

}

加载数据效果
40万级别数据近花费5.4秒

解决方案二:EasyExcel
使用EasyExcel解决大文件Excel内存溢出的问题,基于POI进行封装优化,可以在不考虑性能、内存的等因素的情况下,快速完成Excel的读、写等功能。

官网: https://easyexcel.opensource.alibaba.com/

github:https://github.com/alibaba/easyexcel

引入依赖

<!-- EasyExcel 大数据量excel读写 -->

<dependency>

<groupId>com.alibaba</groupId>

<artifactId>easyexcel</artifactId>

<version>3.1.0</version>

</dependency>

示例代码
仅做简单读取示例,详细文档api可参考:读Excel|EasyExcel

 /**

* EasyExcel方式读取excel

* <p>

* 读取并封装为对象

*

* @param file

*/

public static void readExcelByEasyExcel(File file) {

long start = System.currentTimeMillis();

List<ExcelData> excelDataList = EasyExcel.read(file).head(ExcelData.class).sheet(0).doReadSync();

excelDataList.stream().forEach(x -> System.out.println(x.toString()));

log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);

}

/**

* EasyExcel方式读取excel

* <p>

* 不指定head类

*

* @param file

*/

public static void readExcelByEasyExcel1(File file) {

long start = System.currentTimeMillis();

List<Map<Integer, String>> listMap = EasyExcel.read(file).sheet(0).doReadSync();

listMap.stream().forEach(x -> System.out.println(JSON.toJSONString(x)));

log.info("==读取excel完毕,耗时:{}毫秒,", System.currentTimeMillis() - start);

}


回答:

POI打开大文件时,经常会遇到问题,不过POI从3.8开始,提供了一种专门读取大文件的方式 SXSSF。
SXSSF通过一个滑动窗口来限制访问Row的数量从而达到低内存占用的目录,XSSF可以访问所有行。旧的行数据不再出现在滑动窗口中并变得无法访问,与此同时写到磁盘上。
另外,如果对大文件的读取,是可以考虑使用 EasyExcel,EasyExcel 在读写大文件时,有比较好的优势。
如果除了读写Excel文件,还有类Excel的需求,可以使用GcExcel,GcExcel除了对类Excel的功能支持的很好之外,在读写,公式计算,导出等功能上,性能也非常好。
https://www.grapecity.com.cn/developer/grapecitydocuments/exc...


回答:

试试hutool+poi的写法,本质是流读取的方式,非常简单而且效率很高:
maven依赖:

<dependency>

<groupId>cn.hutool</groupId>

<artifactId>hutool-all</artifactId>

<version>5.8.22</version>

</dependency>

<dependency>

<groupId>org.apache.poi</groupId>

<artifactId>poi</artifactId>

<version>5.2.4</version>

</dependency>

<dependency>

<groupId>org.apache.poi</groupId>

<artifactId>poi-ooxml</artifactId>

<version>5.2.4</version>

</dependency>

poi是针对xls的,poi-ooxml是针对xlsx的
示例的写法,就是遍历每一行你要做什么:

private RowHandler createRowHandler() {

return new RowHandler() {

@Override

public void handle(int sheetIndex, int rowIndex, List<Object> rowlist) {

Console.log("[{}] [{}] {}", sheetIndex, rowIndex, rowlist);

}

};

}

ExcelUtil.readBySax("aaa.xlsx", 0, createRowHandler());//这里的0可以是sheet的索引下标,也可以是sheet的名字

以上是 Java POI 打开大文件慢的优化方法? 的全部内容, 来源链接: utcz.com/p/945469.html

回到顶部