Tuesday, October 20, 2009

看页面上有哪些域名

var s=get('http://www.sohu.com/').data,
d = {};
s.replace(/[\w\d_\.\-]+\.sohu\.com/g, function(a){d[a]=1;return ''});
for(var k in d){
print(k)
}


curl 'http://www.sohu.com/'|sed -n
's~^.*//\([a-zA-Z0-9_\.\-]\{1,20\}\.sohu\.com\).*$~\1~p'|uniq

果然对 bash 用的还不好啊。
还是熟悉js。

No comments: