0

구조화되지 않은 텍스트 파일에있는 데이터를 구문 분석하려고합니다. 하지만 그 전에는 해당 텍스트 파일의 전체 내용을 One 필드에 저장하고 싶습니다. 그래서 필자는 필드에서 검색하여 데이터를 구문 분석 할 수 있습니다.Pentaho 주전자를 사용하여 하나의 필드가있는 텍스트 파일에서 내용/데이터를 가져 오는 방법은 무엇입니까?

자바 스크립트 수정 값을 구문 분석 용으로 사용하려고합니다.

참고 :
내가 말하는 파일은 일반 텍스트 또는 CSV 파일이 아닙니다. 탠덤 서버에서받은 직접 파일입니다.
예 : (텍스트 파일의 내용)
'| 08-7 월 -16 | 1 | 5996 | W2266001 | BODHAN ROADNIZAMABAD | FNFA | 5211080013438979 | *************** | 0220 | 01 | 7 | 7-7 월 16 | 08-7 월 16 | 23 : 14 : 23 | 1043 | 000 | 00 | 541100 | 30000 | 0000 | PRO1 | FNFA | 00000403362 | 356 | 356 | 0 | NIZ-220 | NIZAMABAD | TS | IN || 08-Jul-16 | 1 | '

답변

0

"메모리에 파일 내용로드"단계를 사용할 수 있습니다.

정확히 원하는대로 파일을 구문 분석하지 않고 파일 하나의 필드로 읽습니다. 구분 기호를 지정하는 대신 수동으로 필드 데이터를 입력합니다. "파일 내용"을 요소로 선택하고 "문자열"을 유형으로 선택하십시오.

다른 질문이 있습니다. 파일의 크기가 1.7GB 인 경우 메모리 문제가없는 한 행에로드되지 않을 것입니다. "| DR \ | \"를 사용하여 행

  • 분할 필드 위에 설명 된 바와 같이, 메모리

    transformation steps to split unstructured file

    1. 로드 파일 :

      내가 사용하여 테스트 정규식 구분 기호로 사용

    2. 원래의 거대한 필드를 없애려면 값을 선택하십시오.
    3. 구분 기호로 구분 기호 "|"를 사용하십시오. 문자열 필드 목록에 저장하십시오 (많은 레코드가 가질 수있는 최대 값).

    이것은 다소 유용한 레코드를 제공하지만 일부 레코드에서 누락 된 열을 식별하고이를 교정하는 데 더 많은 처리를해야 할 수도 있습니다.

  • +0

    파일에 머리글과 바닥 글이 없으므로 내용이 표시되지 않습니다. –

    +0

    필드 탭에서 수동으로 필드를 정의하고 요소를 "파일 내용"으로 설정하고 유형을 문자열로 설정할 수 있습니다. – Cyrus

    +0

    다시 한번 확인해 주시겠습니까? 파일 내용을 문자열 및 파일 크기로 int로 변경했습니다. ** 수동으로 ** 필드를 설정할 수있는 옵션을 찾을 수 없습니다. 내가 '미리보기 행'을 사용하여 콘텐츠를 보려고하면 미리보기 할 행이 표시되지 않습니다. –