首页 > 程序开发 > 软件开发 > Java >

正则表达式实现除去重复的单词

2012-12-28

起因:还是动态生成图表时的问题,因为字段是动态设定的,可以在多个轴、序列中设置字段,这就很有可能会存在字段的重复问题。重复的字段生成Sql并执行是没有问题的,但执行的结果,生成List(执行Hibernate的sql...

起因:还是动态生成图表时的问题,因为字段是动态设定的,可以在多个轴、序列中设置字段,这就很有可能会存在字段的重复问题。重复的字段生成Sql并执行是没有问题的,但执行的结果,生成List(执行Hibernate的sqlquery.setResultTransformer(Transformers.ALIAS_TO_ENTITY_MAP).list())时就会有问题了(抛出异常)。所以就要除去查询sql字段中的重复字段。
首先想到的是把字符串分隔成数组,再添加到set中,再用Set中的字段名重新生成不重复的字段名字符串。
代码是这样的:
[java]
String s = "D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,";
String[] s1 = s.split(",");
Set set = new HashSet();
for(String ss : s1){
set.add(ss);
}
Iterator iter = set.iterator();
String newStr = "";
while(iter.hasNext()){
newStr += iter.next();
}
结果显示,重复的字段并没有去掉。
把set.add(ss);改为
[java]
if(!set.contains(ss))
set.add(ss);
结果依旧。
我不知道java是集合是怎么处理字符串的。请教java老手,说理论上Set中应该是不会重复的,但对出现这样的结果,也没有有效的解决办法。哪位大虾能告诉我这是怎么回事呀?
然后我就想到使用正则表达式来实现除去字符串的重复字段名。
第一个表达式:
(\b[\w|_]+\b,?)(.*)\1(.*),代码为:
[java]
String s = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,LOWVOLTAGE_LOSS_RATE,NAME,YEARMONTH,PPQ,PPQ,SPQ,PPQ,PPQ,SPQ,CODE,LOWVOLTAGE_LOSS_RATE";
Pattern p = Pattern.compile("(\\b[\\w|_]+\\b,?)(.*)\\1(.*)");
Matcher matcher = p.matcher(s);
while(matcher.find()){
s = matcher.replaceAll("$1$2$3");
System.out.println(s);
matcher = p.matcher(s);
}
if(s.endsWith(","))
s = s.substring(0,s.length()-1);
String expect = "LOWVOLTAGE_LOSS_RATE,YEARMONTH,NAME,PPQ,SPQ,CODE";
Assert.assertEquals(expect, s.substring(0,s.length()-1));
验证结果为预期结果。
本来以为到这里就已经结束了,可系统刚运行了一会,就报出了错误,跟踪发现,当要处理的字符串为:
"D_NAME,COMPANYID,COMPANY_NAME,PARENT_ID,ID,COMPANYID,COMPANY_NAME,DF_UNIFIED_CODE,DF_CLEARANCE_TAG_ID,"时,执行的结果会把“DF_CLEARANCE_TAG_ID”替换成“DF_CLEARANCE_TAG_”,这可不是我要的结果!
经改进后的正则表达式为:(\b[\w|_]+\b,?)(.*)\b\1\b (.*),再次测试,结果完全满足要求。
相关文章
最新文章
热点推荐