Java处理字符串搜索嵌套结构的方法

2014-11-24 14:28:25 · 作者: · 浏览: 2

在用java分析HTML文本时,如果要取出有嵌套结构的节点之间的内容,不能直接用正则表达式来处理,因为java所带的正则表达式不支持嵌套结构的描述,虽然Perl、.Net、PHP可以支持。这时可以先用正则表达式找出节点在字符串中的位置,然后对节点进行匹配处理,取出匹配节点之间的内容,实现对嵌套结构的处理。


例如要从


源代码如下:


为了记录节点在字符串中的值和位置,先定义一个类,保存这些信息:






例如 调用 get(data,"

", "
") 返回含有两个元素的列表,元素分别为