我正在尝试使用lynx运行增量搜索。
假设有一个页面,例如,一个包含多个文件夹的index_of页面,其中还包含其他子文件夹和文件。我希望以一种可以在每个文件夹/页面中自动输入并搜索字符串的方式运行lynx,因此它将返回包含找到的字符串的链接。
例如,如果我在http://datasheets.chipdb.org/中寻找一个特定的数据表,那么我可以尝试如下
find . -name "mydatasheet.pdf" |lynx -dump http://datasheets.chipdb.org
但我可以递归地在所有子文件夹中运行。也许是一些grep之类的。
怎么做呢?
发布于 2014-02-14 07:18:33
也许我不明白你的问题,但如果我想找到一个pdf文件的链接,我会写一个python脚本。类似于:
#!/usr/bin/env python
import urllib2
import re
from bs4 import BeautifulSoup
def find_links ( url ):
try:
soup = BeautifulSoup(urllib2.urlopen( url ).read())
except:
return
links = soup.findAll( "a" )
for link in links:
pdfurl = link.get('href')
m = re.search( "^\?", pdfurl)
if m:
continue
m = re.search( ".pdf$", pdfurl)
if m:
print "Found a pdf in %s/%s" % (url, pdfurl)
else:
find_links( "%s/%s" % ( url, pdfurl) )
find_links( "http://datasheets.chipdb.org" )或者使用WWW::Mechanize的Perl脚本。
https://unix.stackexchange.com/questions/115110
复制相似问题