JoBo, download manager e web spider tool in Java

JoBo

Tempo fa avevo cominciato a buttar giù qualche riga di codice per creare un tool che controllasse la validità dei collegamenti ipertestuali di un sito Web.
Leggendo il riassunto online della tesi di laurea di William Nazzaro, vengo a conoscenza di JoBo, un'applicazione open source (il codice è disponibile qui) scritta in Java, disponibile sia a riga di comando sia con un front-end grafico, in grado di:

  • ricercare ricorsivamente tutti i documenti a partire da un documento di partenza;
  • supportare i tag <A> <AREA> <IMG> <FRAME>;
  • supportare il protocollo di esclusione per i web crawler (robot.txt);
  • definire il livello di profondità nella scansione di un sito web;
  • definire il nome dello user agent;
  • supportare  il riempimento automatico dei form, l'uso dei cookie di sessione e degli header di referrering;
  • limitare l'uso della banda;
  • permettere o negare il download dei files a seconda del loro mime type o della loro dimensione;
  • convertire i collegamenti assoluti in realtivi;
  • scaricare solo i files più recenti rispetto ad una data impostata;
  • interrompere e recuperare il lavoro.

La sua configurazione è basata su un file XML.

0 comments:

Byte Strike Blog - Designed by Posicionamiento Web | Bloggerized by GosuBlogger