Extraire tous les textes de liens dans un tag
Soit une page html contenant une liste de fichiers du style de ce que l'on trouve dans une page d'index générée par le serveur Apache. Je veux en extraire tous les noms de fichiers.
Donc en résumé j'ai quelque chose du style :
et je veux obtenir la liste des fichiers :
zsh-lovers_0.5.orig.tar.gz
zsnes151src.tar.bz2
zssh-1.5a.tgz
La solution comme d'habitude vient avec un perl oneliner
Donc en résumé j'ai quelque chose du style :
<img src="compressed.gif" alt="[ ]" height="22" width="20"> <a href="http://mirror.switch.ch/ftp/mirror/gentoo/distfiles/zsh-lovers_0.5.orig.tar.gz">zsh-lovers_0.5.orig.tar.gz</a> 01-Aug-2006 18:05 487K
<img src="unknown.gif" alt="[ ]" height="22" width="20"> <a href="http://mirror.switch.ch/ftp/mirror/gentoo/distfiles/zsnes151src.tar.bz2">zsnes151src.tar.bz2</a> 25-Jan-2007 02:22 1.0M
<img src="compressed.gif" alt="[ ]" height="22" width="20"> <a href="http://mirror.switch.ch/ftp/mirror/gentoo/distfiles/zssh-1.5a.tgz">zssh-1.5a.tgz</a> 24-Mar-2003 17:22 332K
et je veux obtenir la liste des fichiers :
zsh-lovers_0.5.orig.tar.gz
zsnes151src.tar.bz2
zssh-1.5a.tgz
La solution comme d'habitude vient avec un perl oneliner
perl -ne 'print "$1\n" if m:<a[^>]+>(.+?)</a>:gi' thefile.html
Commentaires