Legacy:Robots.txt-artikeln/statistik
Version från den 28 februari 2009 kl. 15.18 av imported>Staffan (Robots.txt-artikeln/statistik flyttad till Legacy:Robots.txt-artikeln/statistik)
Givet en fil, tmp/urls.txt, med rader på formen "www.akademiskahus.se":
Skapa underlag för robots.txt-statistik:
for i in `cat tmp/urls.txt` ; do curl -I http://$i/robots.txt; done > tmp/out.txt
Sammanställ statistiken:
cat tmp/out.txt |grep '^HTTP/1'|cut -c 10-12 | sort|uniq -c
330 200 14 301 30 302 1 400 2 403 608 404 1 500
Hämta samtliga robots.txt-filer:
for i in `cat tmp/urls.txt` ; do curl -i -m 15 http://$i/robots.txt > tmp/$i.robots.txt ; done
Sortera ut faktiska förekomster (statuskod 200):
egrep -l '^HTTP/1\.. 200' *| xargs -I '{}' mv '{}' 200/