data-partitioning

2열

1답변

R에서 sample.split을 사용하여 데이터가 잘못 분할되고 로지스틱 회귀와 함께 발생합니다.

문제점이 2 개 있습니다. 나는 아래 sample.split를 사용하여, 테스트 및 기차 세트로 내 데이터를 분할하려고는 샘플링 오히려 unclearly 이루어집니다. 내 말은 데이터 d는 길이가 392이므로 4 : 1 부분은 0.8 * 392 = 313.6, 즉 313 또는 314 행을 테스트 세트에 표시해야하지만 표시된 길이는 304입니다. 실종 됐어?

0열

1답변

창을 정의하고 여러 분석 열에서 사용하십시오.

같은 창에서 여러 분석 함수를 사용해야하는 Oracle 쿼리가 있습니다. 창을 한 번 정의한 다음 각 호출에이 창을 사용하려면 어떻게해야합니까? e.e. 내가 PostgreSQL의에서처럼 쓰고 싶어 : SELECT sum(salary) OVER w, avg(salary) OVER w FROM empsalary WINDOW w AS (P

11열

4답변

특정 조건에 대해 고유 한 쌍 값을 선택하는 SQL 쿼리 작성 방법은 무엇입니까?

다음 문제에 대한 쿼리를 공식화하는 데 문제가 있습니다. 특정 점수가있는 쌍 값의 경우 가장 좋은 점수를 가진 별개 쌍 값만 반환하는 방식으로 그룹화하는 방법은 무엇입니까? (t1,p1,65) (t1,p2,60) (t1,p3,20) (t2,p1,60) (t2,p2,59) (t2,p3,15) 처음 두 열 쌍의 값을 표시하고 세 번째 열은 쌍 sc

1열

2답변

U-SQL

에있는 데이터의 고유 값을 기반으로 CSV 파일을 여러 파일로 분할합니다. Azure Data Lake Store의 데이터를 가지고 있으며 거기에있는 데이터를 U-SQL을 사용하여 Azure Data Analytic Job으로 처리하고 있습니다. 나는이와 유사한 공간 데이터를 포함하는 여러 CSV 파일이 있습니다 File_20170301.csv longti

1열

2답변

MYSQL에서 키 기반 테이블 파티셔닝을 사용하여 동적 파티션 수를 만드는 방법은 무엇입니까?

mysql을 사용하여 Partitioned 테이블을 만들려고하지만 파티션 수를 지정하고 싶지 않습니다. 예를 들어 주어진 테이블에서 각 지역에 대해 100,000 개가 넘는 레코드가 있습니다. 나는 그 지역을 모른다. 그들은 나중에 올 것이다. 그래서 파티션의 수는 지역에 따라 증가해야하지만 신텍스는 다른 값으로 여러 행을 삽입하더라도 단일 파티션을 생성합

1열

1답변

파일별로 스파크 파티션

S3 버킷에 수천 개의 압축 된 CSV 파일이 있습니다. 각각의 크기는 약 30MB (압축 해제 후 약 120-160MB)입니다.이 파일은 spark를 사용하여 처리하려고합니다. 필자의 필자는 각 행에서 간단한 필터 선택 쿼리를 수행하고 있습니다. 파티션을 나누는 동안 파일을 두 개 이상의 부분으로 나눈 다음 각 파티션에 대한 작업을 만듭니다. 각 작업은

3열

2답변

SQL 파티션 행 그룹을 번갈아 사용하여

나는 이런 종류의 데이터 테이블을 가지고 있습니다. 변환 선은 수량이 어느 부분에 있는지 알려주고 소모 선은 사용량의 양을 알려줍니다. 소비 라인은 이전 LotId까지의 해당 LotId에 대한 모든 이전 변환 라인에 적용되거나 이전 Lot그룹화를 사용하는 LotId와 동일하다면 적용됩니다. 추가 된 렌치 하나를 던지려면 그룹 내의 변환 및 소비 행 수가 가

-1열

1답변

변환 후 스파크 데이터 프레임의 파티션 수를 유지

데이터 프레임이 원하는 것보다 너무 많은 파티션 (700 개 이상)으로 나뉘어져있는 코드에서 버그를보고 있는데, 시도 할 때 너무 많은 셔플 작업이 발생합니다 48 개까지만 다시 분할 할 수 있습니다. 분할을 수행하기 전에 먼저 분할 할 분할 영역 수가 적기 때문에 병합()을 사용할 수 없습니다. 나는 파티션 수를 줄이는 방법을 찾고있다. 필자에게 10 개

3열

1답변

캐럿 패키지의 createDataPartition 함수는 어떻게 데이터를 분할합니까?

설명서에서 : 부트 스트랩 샘플의 경우 간단한 임의 샘플링이 사용됩니다. 다른 데이터 분할의 경우, y가 내의 클래스 분포의 균형을 맞추기위한 요인 일 때 y레벨에서 무작위 샘플링이 수행됩니다. 숫자 y의 경우 샘플은 백분위 수 을 기준으로 그룹 섹션으로 분할되고 이러한 하위 그룹 내에서 샘플링이 수행됩니다. createDataPartition의 경우 백분

3열

2답변

Azure Data Lake의 U-SQL 출력

테이블에 포함 된 여러 개의 키 값이 몇 개인 지 알 수없는 경우 열 값을 기반으로 여러 파일로 테이블을 자동으로 분할 할 수 있습니까? 키 값을 파일 이름에 넣을 수 있습니까?