팬더의 read_csv (완전히 판다 유형 유추에 의존)를 사용하여 .csv를 읽는 간단한 코드를 작성했습니다.arrow_table = pa.Table.from_pandas (df) ... Python 개체를 String/UTF8로 변환하는 중 오류가 발생했습니다.
arrow_table = pa.Table.from_pandas(df)"): Error converting to Python objects to String/UTF8
이 문제를 해결하기 위해 인터넷에서 유용한 정보를 찾을 수 없습니다. pyarrow.from_pandas (type = ...)에서 'type'매개 변수를 사용하는 방법
고맙습니다.
$ python pqwrite2.py
pyarrow version = 0.7.1
from_size = 298877474 bytes
sys:1: DtypeWarning: Columns (23,28) have mixed types. Specify dtype option on import or set low_memory=False.
id int64
...
pid object
mnemonic object
supplier_key float64
generic object
trade_name object
description object
strength object
form object
ndc object
note object
pack_size float64
pack_size_text object
pack_type object
route_description object
...
status object
hidden_flag object
updated float64
created_at object
updated_at object
medid object
dtype: object
write_to_parquet(df, parquet_output/h_billing_codes.SNAPPY.parquet, SNAPPY) ...
ERROR:root:2017-12-13 02:22:48 EXCEPTION IN (pqwrite2.py, LINE 23 "arrow_table = pa.Table.from_pandas(df)"): Error converting to Python objects to String/UTF8: Got Python object of type float but can only handle these types: str, bytes
2017-12-13 02:22:48 EXCEPTION IN (pqwrite2.py, LINE 23 "arrow_table = pa.Table.from_pandas(df)"): Error converting to Python objects to String/UTF8: Got Python object of type float but can only handle these types: str, bytes
기본적으로 read_csv는 테이크 탭을 분리 자로 사용합니다. 데이터에 다른 구분 기호가있는 것 같습니다. –