2017-10-24 4 views
0

to_parquet 기능을 실행할 때 열 개체 유형과 관련된 몇 가지 문제가 있음을 확인했습니다. 나는 15.1 버전의 dask를 실행 중이다.올바른 이유 dask.dataframe.to_parquet

astype(object)을 사용하여 열을 명시 적으로 변환 했으므로 일부 열만 사용할 수 있습니다.
다음 오류가 발생합니다 : TypeError: bad argument type for built-in operation.
object_encoding='utf-8 매개 변수를 추가 한 후 다음 오류가 표시됩니다 - TypeError: expected list of bytes.

이 문제를 디버깅하는 가장 좋은 방법은 무엇입니까?
BTW- 내 데이터 세트에 히브리어가 있습니다.

들으

답변

0

올바른 철자 object_encoding='utf8'이다.

개체 인코딩은 일반적으로 열 단위 설정이므로 예를 들어 object_encoding={'a': 'utf8', 'b': 'bytes'} 일 수 있습니다. 특별한 값 'infer'은 주어진 객체 열에 대한 올바른 인코딩을 추측하려하지만, 항상 그렇게 성공하지는 않습니다. 이것은 아마도 여러분이 보는 첫 번째 오류의 원인 일 것입니다.

+0

당신의 대답은 Thx입니다. 그러나 명시 적으로 {{ ''colname ':'utf8 '...}을 사용 했더라도'TypeError : 기본 제공 연산에 대한 잘못된 인수 유형' ' –

+0

문자열이 아닌 무언가를 utf8로 인코딩 할 때 오류가 발생하면 데이터 열을 검사하여 문자열과 없음 만 포함되어 있는지 확인해야합니다. – mdurant

+0

'to_parquet'을 실행하기 전에'dd.col1 = dd.col1.astype (object)'를 사용하는 객체인지를 검증하고 있으며 (isnull()로 검사 한) null이 없습니다. 여전히 같은 오류가 발생합니다. –