2016-11-16 3 views
-2

이 파일에는 2 개의 파일이 있습니다.Pentaho 실행에 파일 목록이 포함되어 있습니다.

입력 파일이 개 필드 6 행 :

1|BANANA ON CAGES  
2|APPLE CHIPS  
3|SPORT CARS  
4|PLANES  
5|HOUSE  
6|BOTTLES 

목록 파일이 개 필드 4 행

BANANA|FRUIT  
APPLE|FRUIT  
CAR|TRANSPORT  
PLANE|TRANSPORT 

그리고이 결과를 원하는 :

출력 파일 3 개 필드를 6 행

1|BANANA ON CAGES|FRUIT  
2|APPLE CHIPS|FRUIT  
3|SPORT CARS|TRANSPORT  
4|PLANES|TRANSPORT  
5|HOUSE  
6|BOTTLES 

필자는 PDI를 사용해야합니다. 결합 파일 (Cartesian Product)이 너무 느립니다. 입력 파일이 약 1,000,000 개의 행에 있고 파일이 300,000 개의 행에 나열됩니다.

+0

카티 전 곱이 솔루션이거나 일부 조인 조건이 있어야합니다. – Nikhil

+0

Ok, 감사합니다. 입력 파일을 비교하는 행 수가 같고 예제와 같이 출력을 결합하는 방법은 무엇입니까? 조건이 일치하지 않는 경우 Y 행을 잃어 –

+0

더 많은 데이터가 필요합니다. 입력 파일의 항목이 열매 또는 운송인지 여부를 알 수있는 데이터는 없습니다. 이러한 구별은 컴퓨터가 어떤 "CAR"! = "SPORT CARS"인지를 알 수있는 데이터 어딘가에 존재해야합니다. –

답변

0

목록 파일이 동적이어야하거나 내용이 상당히 정적입니까?

정적 인 경우 문자열 바꾸기를 RegEx로 시도 할 수 있습니다.

enter image description here

범주를 설정 한 후 어디 필터링해야 만 할 범주 = 항목 설명에서 : 뭔가처럼!.

이렇게 많은 레코드로 어떻게 수행할지 모르겠다. 지금까지 몇 가지 기록으로이 단계를 사용했습니다.

EDIT : Join (Cartesian)에는 REGEXP 옵션이 있습니다. 어쩌면 CONTAINS보다 더 빠를 수도 있습니다 (사용하고 있다고 생각하십니까?). 그것은 설정하는 것이 훨씬 낫다.

행운을 빈다.