Nutch

Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene.

Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto.

Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione.

Nel giugno del 2005 Nutch è passato dallo stato di Apache Incubator a sottoprogetto di Lucene.

È implementato completamente in Java, ma i dati sono conservati in un formato neutro. Nel giugno 2003 fu eseguito con successo un test per indicizzare 100 milioni di pagine. Per soddisfare la necessità di una elaborazione distribuita, per il progetto Nutch è stato anche realizzato una funzionalità di MapReduce ed un file system distribuito. Queste due componenti sono poi confluite in un progetto proprio chiamato Apache Hadoop.

Progetti correlati

  • Apache Hadoop
  • Lucene
  • Apache Tika

Motori di ricerca costruiti con Nutch

  • mozDex
  • Krugle
  • BusyTonight
  • Wikiasari
  • MetaMojo.com
  • Greener, a search engine for green resources, su greener.com.

Altri progetti

Altri progetti

  • Wikimedia Commons
  • Collabora a Wikimedia Commons Wikimedia Commons contiene immagini o altri file su Nutch

Collegamenti esterni

  • Official page of the Nutch project, su lucene.apache.org.
  • Building Nutch: Open Source Search Archiviato il 25 ottobre 2006 in Internet Archive. (2004) - ACM Queue vol. 2, no. 2
  • An article about Nutch (2003) - Search Engine Watch
  • Another article about Nutch Archiviato il 6 luglio 2008 in Internet Archive. (2003) - Tech News World
  • unofficial Documentation, su wiki.media-style.com.
  • Official page of the Hadoop project, su lucene.apache.org. URL consultato il 10 febbraio 2007 (archiviato dall'url originale il 10 febbraio 2007).
  Portale Internet
  Portale Software libero
  Portale Telematica