csv 파일에서 쪽매 파일을 만들고 싶습니다. 테스트 목적으로 파일을 읽고 팬더 데이터 프레임을 먼저 변환 한 다음 파이 로우 테이블로 변환하는 코드 조각 아래에 있습니다. 이 테이블은 AWS S3에 저장되며 테이블에서 하이브 쿼리를 실행하려고합니다.여기 엔 나무 마루 만들기 pandas 데이터 프레임에서 pyarrow 테이블로의 변환이 개체 dtype에서 작동하지 않습니다
입력 파일 내용 :
YEAR|WORD
2017|Word 1
2018|Word 2
코드 :
dataFrame=pd.read_csv(inputFile, sep='|')
print(dataFrame)
print(dataFrame.dtypes)
print(dataFrame.columns)
dataFrame['C1'] = dataFrame['C1'].astype('str')
print(dataFrame.dtypes)
table=pa.Table.from_pandas(dataFrame)#,schema=pa.string())
pq.write_table(table, outputFile)
테이블을 pyarrow을 작성 후, 나는 확실히 데이터가 S3에 저장하는 것이 좋다 만들기 위해 마루 파일을 조회. 그러나 결과는 이상한 있습니다
+--------+--------------+
| YEAR | WORD |
+--------+--------------+
| 2017 | [[email protected] |
| 2018 | [[email protected] |
+--------+--------------+
은 어떻게 든 INT 값은 그러나 객체/STR 값이 변환 된 벌금을하지 않는, 잘 보여줍니다.
감사합니다.
감사합니다.
인사를 지정하면 https://issues.apache.org에 문제를 열어 줄래하세요/jira/browse/ARROW 그리고 거기에서 디버깅을 도울 수 있습니까? –
이 문제를 추적하려면 여기를 클릭하십시오 : https://issues.apache.org/jira/browse/ARROW-785 – Jeff
자세한 내용은 JIRA를 업데이트하십시오. – Ash