Apache Nutch е силно разширяващ се и мащабируем софтуер за уеб сканиране с отворен код.Nutch се кодира изцяло на програмния език на Java, но данните се записват в независими от езика формати.Той има силно модулна архитектура, което позволява на разработчиците да създават приставки за разбор на медийни типове, извличане на данни, заявки и клъстеринг.Извличащият елемент („робот“ или „уеб браузър“) е написан от нулата специално за този проект.
apache-nutch