(好文!!)FileReader读取文件,由于不确定源文件的编码格式不同，导致读出的文件乱码的问题

xumingrencai

浏览: 1177474 次

最近访客更多访客>>

u012363178

zhaodengfeng1989

董不懂不懂

流_年

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1503)

社区版块

存档分类

直接上代码：

package org.bruce.file.handle.experiment; import java.io.File; import java.io.FileInputStream; import org.apache.commons.io.IOUtils; /** * @author user * apache 的 IOUtils 这个类真的很好用~ */ public class TestIOUtils { public static String _absPath1 = "/Users/user/Novels/txt/猎头.txt"; /** * @param args */ public static void main(String[] args) throws Exception { // TODO Auto-generated method stub File f = new File(_absPath1); FileInputStream fis = new FileInputStream(f); // 无损读取，Integer.MAX_VALUE = 21 亿 4748 万 3648 = 2G (Byte)~ byte[] bytes = IOUtils.toByteArray(fis); System.out.println(bytes.length); /** 以下三句代码的效果是相通的~ */ String str1 = new String(bytes); // 按JVM的默认字符集 UTF-8 进行解码~ // String str1 = new String(bytes, 0, bytes.length); // 同上~ // String str1 = new String(bytes, "UTF-8"); System.out.println(str1); // 还原编码 String str2 = new String(bytes, "GBK"); System.out.println(str2); } }org.apache.commons.io.IOUtils是Apache commons IO 里面的一个工具类此类所在的 jar 包可以在这里下载到(只用到部分功能，我动手“精简”了一下)：

http://download.csdn.net/detail/yang3wei/4163965

参考资料：http://liudeh-009.iteye.com/blog/1312117

读取一个UTF-8编码格式的文件，代码中起初用FileReader读取到一个字符串，然后转换字符集，结果就出问题了：

文件读入时是按OS的默认字符集即GBK解码的，我先用默认字符集GBK编码str.getBytes(“GBK”)，此时应该还原为文件中的字节序列了，

然后再按UTF-8解码，生成的字符串按理说应该就应该是正确的。

为什么结果中还是有部分乱码呢？

问题出在FileReader读取文件的过程中，FileReader继承了InputStreamReader，但并没有实现父类中带字符集参数的构造函数，

所以FileReader只能按系统默认的字符集来解码，然后在UTF-8 -> GBK -> UTF-8的过程中编码出现损失，造成结果不能还原最初的字符。

之前还碰到过一个问题，读取一个别人上传的文件，本来约束是这个文件啊必须是UTF-8的，但是用户上传的文件，却是用GBK

编码的，导致将这个文件流读出，使用时，发现乱码无法真确识别其中信息。

如何解决呢？

首先，我不管源文件是采用什么编码，取得文件流，然后用org.apache.commons.io.IOUtils.toByteArray这个工具类中的API