123
StormCrawler

StormCrawler

StormCrawler е SDK с отворен код за изграждане на разпространени уеб сървър с Apache Storm.Проектът е под лиценз Apache v2 и се състои от колекция от ресурси и компоненти за многократна употреба, написани най-вече на Java.Целта на StormCrawler е да помогне за изграждането на уеб браузъри, които са: мащабируеми еластични ниски латентности, лесни за разширяване на учтив, но ефективен StormCrawler е библиотека и събиране на ресурси, които разработчиците могат да използват за изграждане на свои собствени роботи.Добрата новина е, че това може да бъде доста просто.Често всичко, което ще трябва да направите, е да декларирате буря-обходник като Maven зависимост, напишете свой собствен клас на топология (съвет: можете да разширите ConfigurableTopology), да използвате повторно компонентите, предоставени от проекта и може би да напишете няколко персонализираниза вашия собствен таен сос.Малко да се докоснете до конфигурацията и изключете! ... Освен основните компоненти, ние предлагаме някои външни ресурси, които можете да използвате повторно във вашия проект, например нашия чучур и болтове за ElasticSearch или ParserBolt, който използва Apache Tikaда анализираме различни формати на документи.StormCrawler е напълно подходящ за използване на случаи, когато URL адресът за извличане и анализиране идва като потоци, но също така е подходящо решение за мащабни рекурсивни обхождания, особено когато се изисква ниска латентност.Проектът се използва в производството на няколко компании и се развива активно и се поддържа.

Категории

Алтернативи на StormCrawler за Linux