在Java中,我有一个处理Apache服务器日志的代码块,并检查URL扩展类型。当URL格式为"/index.html“时,它工作得很好,但有时URL为"/",这会破坏代码。
下面的代码工作得很好,但是如果在输入行中"/index.html“改为"/”,那么它就会中断,因为第19行(\\.\\S*)会检查一个点,后面跟着几个字符,但是如果(\\.\\S*)是"/“,那么regex就找不到点。
如何重写第19行(\\.\\S*)以允许选择.extension或"/"?
换言之:
如果是URL=index.html,则扩展为.html
如果是URL=index.php,则扩展为.php
如果URL=/,则扩展为"“。
import java.util.regex.*;
public class Test {
public static void main(String[] args) {
String log_input = "123.45.67.89 - - [27/Oct/2000:09:27:09 -0400] \"GET /index.html HTTP/1.0\" 200 10450 \"-\" \"Mozilla/4.6 [en] (X11; U; OpenBSD 2.8 i386; Nav)\"";
//String log_input = "123.45.67.89 - - [27/Oct/2000:09:27:09 -0400] \"GET / HTTP/1.0\" 200 10450 \"-\" \"Mozilla/4.6 [en] (X11; U; OpenBSD 2.8 i386; Nav)\"";
//step 1 - split log line
Pattern p = Pattern.compile("^([\\d.]+) (\\S+) (\\S+) \\[([\\w:/]+\\s[+\\-]\\d{4})\\] \"(.+)\" (\\d{3}) (\\d+) \"([^\"]+)\" \"([^\"]+)\"");
Matcher m = p.matcher(log_input);
m.matches();
String request_ip = m.group(1);
String request_resource = m.group(5);
System.out.println("Input: " + m.group(5));
//step 2 - check file extension
Pattern p2 = Pattern.compile(".* .*(\\.\\S*) .*");
Matcher m2 = p2.matcher(request_resource);
m2.matches();
String request_resource_ext = m2.group(1);
System.out.println("Extension: " + request_resource_ext);
if(request_resource_ext.matches("\\.htm|\\.html|\\.php|^$")){ //^$ in case the URL is / which has no extension
System.out.println("Write");
}else{
System.out.println("Do not write");
}
}
}发布于 2013-08-05 01:03:12
使用以下正则表达式:
.* (?:/|.*(\\.\\S*)) .*它使用管道|字符来匹配/、或,一个文件名在某个地方有一个点。
?:使组不被捕获,因此m2.group(1)继续像以前一样工作。
https://stackoverflow.com/questions/18049202
复制相似问题