reader = new InputStreamReader(urlStream, anotherCharset);
bufferedReader = new BufferedReader(reader);
int av = urlStream.available();
bufferedReader.mark(av + 1);//也可以使用count试试
mark = true;
}
}
}
这种方法可以得到正确的编码格式的page页面,然而由于使用不同的字符集实例化InputStreamReader,造成inputStream流在使用新的字符集重新实例化后,之前的定位发生变化,前后的位置不一致,中间往往会漏掉大约400多行字符。
研究了一些相关开源项目,例如HtmlParser,发现也是无法提供一个正确的,好用的方法来判断字节流的编码格式。
摘自 千山独行