有没有一个库(用于java)来比较网页之间的相似性(HTML,dom相似性)?
在我的应用程序中,我想对网站的链接进行分类。例如:group 1: Product detail page group 2: Category page (用于在线购物网站等)。
对于这样的分类,html结构(dom)相似度是我认为最好的方式。请帮帮忙。
发布于 2012-05-10 20:10:56
不完全是您所要求的,但是如果HTMl是有效的XML,那么您可以使用XMLUnit,它是very simple,用于比较与它的相似性。
https://stackoverflow.com/questions/8892073
复制相似问题