제 Python 프로젝트에서 관계형 데이터 프레임을 사용하여 bigquery 테이블을 채울 필요가 있습니다. 새 테이블을 처음부터 만들고 처음 업로드 한 데이터가 테이블에 실제로 저장되는지 확인하는 데 많은 어려움을 겪고 있습니다.Bigquery (and pandas) - 데이터 삽입 일관성 보장
나는 https://cloud.google.com/bigquery/streaming-data-into-bigquery#dataconsistency 페이지를 읽고 삽입 쿼리에 insertId를 적용하면 문제를 해결할 수 있지만 팬더의 데이터 프레임을 사용하기 때문에 pandas-gbq 패키지의 to_gbq 기능이이 작업에 완벽하게 보입니다. . 그러나 to_gbq 함수를 사용하고 새 테이블을 작성/교체 할 때 첫 번째 데이터 청크가 (분명히 무작위로) 테이블에 기록되지 않는 경우가 있습니다.
누가 새 테이블 bigquery에 DataFrame의 완전 삽입을 보장하는 방법을 알고 있습니까? 감사합니다
귀하의 답변에 감사드립니다. 나는 pandas 'to_gbq 함수를 사용하는 것이 매우 편리하기 때문에 곧 수정 될 수 있기를 바랍니다! – user1403546
현재로서는 데이터 삽입의 일관성을 어떻게 보장 할 수 있습니까? (팬더가 아닌 기능도 포함) – user1403546
그 동안 테이블을 만들 때 "로드 작업"을 사용하는 것이 좋습니다. 예를 들어,'google-cloud-bigquery' 패키지에서'client.load_table_from_file' 메소드를 사용합니다. https://googlecloudplatform.github.io/google-cloud-python/latest/bigquery/reference.html#google.cloud.bigquery.client.Client.load_table_from_file –