Luigi 또는 다른 Workflow 자동화 제품군과 같은 것을 사용하고 싶습니다. 내 문제는 내가 알 수없는 입력 번호를 노드가 있다는 것입니다. 예를 들어 Luigi는 입력 내용을 미리 하드 코딩해야합니다. 는이 전 노드가 작업을 나타내는 그래프가 있고 선이 다른 모든 작업 A
/\
| B
\/
C
우리가에서 시작하지만 B, C로 흘러
원시 데이터를 작은 파일로 분할하는 luigi 전처리 작업이 있습니다. 이 파일들은 실제 파이프 라인에 의해 처리됩니다. 매개 변수와 관련하여 매개 변수로 하나의 전처리 된 파일 ID가있는 각 파이프 라인을 필요로합니다. 그러나이 파일 ID는 사전 처리 단계에서만 생성되므로 런타임시에만 알 수 있습니다. , Experiment이 첫 번째는, 어떻게 든 두
파이프 라인에서 일부 자연 언어 처리 작업을 배열하기 위해 Spotify's Luigi을 사용하여 파이썬 3.6에서 첫 번째 프로젝트를 코딩했습니다. Task 클래스의 output() 함수는 항상 어떤 종류의 파일 인 Target 개체를 로컬 또는 원격으로 반환하는 것으로 나타났습니다. My Tasks는 구문 분석 트리와 같은보다 복잡한 데이터 구조를 생성
저는 루이지를 워크 플로우 처리기로 통합하려고했습니다. 현재 우리는 콩 코스를 사용하고 있습니다. 그러나 우리가하려고하는 많은 것들이 콩 코스에서 돌아 다니는 번거 로움 때문에 우리는 루이지를 의존성 관리자로 전환했습니다. 지금까지 문제는 없지만 워크 플로가 올바르게 실행되고 실행됩니다. 어떤 이유로 든 작업이 실패하면 문제가 발생합니다. 이 경우에는 특별
저는 Luigi로 시작하고 Luigi가 어떻게 동일한 매개 변수로 성공적으로 실행 되었기 때문에 작업을 다시 실행해서는 안되는지 궁금합니다. 나는 문서를 읽었지만 대답을 찾지 못했습니다. 가설 : 합니까 루이지 (이것은 DB를 사용하지 않습니다) 메모리의 상태 (작업 인스턴스와 결과를) 저장? 그래서 스케줄러를 다시 시작하면 모든 것을 잊어 버리고 모든 작
새 오브젝트가 작성 시간에 따라 키가있는 임의의 간격으로 추가되는 버킷이 있습니다. 예를 들어 's3://my-bucket/mass/%s/%s/%s/%s/%s_%s.csv' % (time.strftime('%Y'), time.strftime('%m'), time.strftime('%d'), time.strftime('%H'), name, the_time)
Spark Cluster Standalone을 사용합니다. 마스터와 단일 슬레이브가 동일한 서버 (서버 B)에 있습니다. Luigi (서버 A)를 사용하여 내 응용 프로그램을 제출하고 배포 (클라이언트 모드)합니다. 내 응용 프로그램은 서버 B의 로컬 파일을 읽습니다. 그러나 응용 프로그램은 서버 A에서도 파일을 읽으려고합니다. 왜 그렇습니까? sc.tex
필자는 해시를 계산할 수 있도록 zip 파일을 가리키는 luigi.LocalTarget을 열려고합니다. 불행히도, 내가 그것을 읽으려고 할 때, 나는 그것이 바이너리 파일로 열리지 않는다는 것을 의미한다고 가정하는 UnicodeDecodeError를 얻는다. 나는 (루이지없이)이 작업을 수행 할 수 있으며, 그것을 잘 file_path = luigi.Loc
나는 루이지가 어떻게 작동하는지 아주 간단한 방법으로 배우려고합니다. 그냥 초보자로서 내가 명령 프롬프트에서이 실행이 코드 import luigi
class class1(luigi.Task):
def requires(self):
return class2()
def output(self):
return luigi.L