如何从网页中获取正文内容?我只想从body标签中获取文本,body中的所有其他标签都应该删除...
有人能帮我吗?提前感谢....
发布于 2009-05-30 05:34:33
首先找出body标签在字符串中的位置。然后使用NSString方法删除开始标记之前的所有内容和结束标记之后的所有内容。
在此之后,下面是如何从正文内容中剥离HTML标记:
http://www.objectpark.net/StrippingHTML.html
发布于 2009-05-30 05:34:44
当您通过NSURLConnection进行调用时,您将收到来自您在NSURLRequest中设置的URL的NSMutableData格式的ASCII文本数据。
从那里开始,您必须只解析字符串,删除所有其他标记。也许使用上一个答案中提到的工具。
发布于 2009-05-30 08:49:37
如果您正在使用UIWebView加载和显示,那么可以使用其方便的方法stringByEvaluatingJavaScriptFromString。
NSString *jsString = @"document.getElementsByTagName('body')[0].innerHTML;";
NSString *contentOfBody = [myWebView stringByEvaluatingJavaScriptFromString:jsString];这在Web视图中应该能起到作用。
https://stackoverflow.com/questions/929080
复制相似问题