Luigi

Luigi

Целта на Luigi е да се справи с всички водопроводни системи, обикновено свързани с продължителни партидни процеси.Искате да веригирате много задачи, да ги автоматизирате и ще се случат неуспехи.Тези задачи могат да бъдат всякакви, но обикновено са дълги работи като Hadoop задачи, изхвърляне на данни към / от бази данни, работа на алгоритми за машинно обучение или нещо друго.Има и други софтуерни пакети, които се фокусират върху аспекти на по-ниско ниво на обработка на данни, като Hive, Pig или Cascading.Луиджи не е рамка, която да ги замени.Вместо това ви помага да свържете много задачи заедно, където всяка задача може да бъде запитване в Hive, Hadoop работа в Java, Spark задача в Scala или Python a фрагмент на Python, изхвърляне на таблица от база данни или нещо друго.Лесно е да изградите дълго работещи тръбопроводи, които включват хиляди задачи и да отнемат дни или седмици.Луиджи се грижи за много от управлението на работния процес, така че да можете да се съсредоточите върху самите задачи и техните зависимости .... Можете да изградите почти всяка задача, която искате, но Луиджи също така идва с инструментариум от няколко общи шаблона на задачи, които виеизползвате.Тя включва поддръжка за изпълнение на задания на Python mapreduce в Hadoop, както и работни места Hive и Pig.Той също така идва с абстракции на файловата система за HDFS и локални файлове, които гарантират, че всички операции с файлова система са атомни.Това е важно, защото означава, че тръбопроводът ви за данни няма да се срине в състояние, съдържащо частични данни.

Категории

Алтернативи на Luigi за Self-Hosted