Extraire tous les textes de liens dans un tag

mars 13, 2008

Soit une page html contenant une liste de fichiers du style de ce que l'on trouve dans une page d'index générée par le serveur Apache. Je veux en extraire tous les noms de fichiers.
Donc en résumé j'ai quelque chose du style :


<img src="compressed.gif" alt="[   ]" height="22" width="20"> <a href="http://mirror.switch.ch/ftp/mirror/gentoo/distfiles/zsh-lovers_0.5.orig.tar.gz">zsh-lovers_0.5.orig.tar.gz</a> 01-Aug-2006 18:05  487K
<img src="unknown.gif" alt="[   ]" height="22" width="20"> <a href="http://mirror.switch.ch/ftp/mirror/gentoo/distfiles/zsnes151src.tar.bz2">zsnes151src.tar.bz2</a>   25-Jan-2007 02:22  1.0M
<img src="compressed.gif" alt="[   ]" height="22" width="20"> <a href="http://mirror.switch.ch/ftp/mirror/gentoo/distfiles/zssh-1.5a.tgz">zssh-1.5a.tgz</a>    24-Mar-2003 17:22  332K

et je veux obtenir la liste des fichiers :
zsh-lovers_0.5.orig.tar.gz
zsnes151src.tar.bz2
zssh-1.5a.tgz
La solution comme d'habitude vient avec un perl oneliner


perl -ne 'print "$1\n" if m:<a[^>]+>(.+?)</a>:gi' thefile.html

Rechercher dans ce blog

LAPT (Linux And Perl Tips)

Extraire tous les textes de liens dans un tag

Commentaires

Posts les plus consultés de ce blog

Comment extraire les fichiers disques en raw d'un backup proxmox vma

Find the lists of disks of your Proxmox VM stored in a ceph cluster

Pavé numérique innopérant ou bloqué sous Linux Ubuntu (Avec Gnome)