sparklyr

1열

1답변

는 spark_read_csv를 사용하여 불꽃으로 CSV를 읽을 수 없습니다()

내가 잘 read.csv()를 사용하여 R에 .CSV을 읽을 수 R.에 csv 파일을 읽을 수 sparklyr를 사용하려고 해요,하지만 난 때 spark_read_csv()에게 그것을 사용하는 고장. 나는 다음과 같은 오류가 발생이 코드를 실행하려고 할 때 accidents <- spark_read_csv(sc, name = 'accidents', path

1열

1답변

스파크 릴 R이 포함 된 .csv 파일 읽기

.csv 개의 파일이 2GB 이상인 C:\Users\USER_NAME\Documents에 있습니다. Apache Spark을 사용하여 R에서 데이터를 읽으려고합니다. Microsoft R Open 3.3.1을 Spark 2.0.1과 함께 사용하고 있습니다. 파일이 Sparklyr 패키지에 정의 된 .csv 파일을 읽어야합니다. file://으로 시작하는 파

4열

1답변

간단한 명령은 기지국의 R

, 그 데이터 프레임 > testdf <- data.frame(a1 = rnorm(1e5), a2 = rnorm(1e5), a3 = rnorm(1e5), a4 = rnorm(1e5), a5 = rnorm(1e5), a6 = rnorm(1e5)) > names(testdf) [1] "a1" "a2" "a3" "a4" "a5" "a6" 에서 열 (변수)

2열

1답변

스파크 릴을 사용하여 스파크에 R 연결 시도

나는 스파크 릴을 사용하여 스파크에 R을 연결하려고합니다. 은 내가 잘 갔다하지만 다른 포스트에서, 나는 sparklyr_0.4 버전의 버그가 있다고보고 install.packages("sparklyr")를 사용하여 설치 sparklyr을 시도 rstudio 블로그 에서 튜토리얼을 따라 갔다. 그래서 지침을 따라 devtools::install_github

1열

2답변

SparklyR Spark Context에서 테이블 제거

Spark Context ('sc')에서 단일 데이터 테이블을 제거하고 싶습니다. 하나의 캐시 된 테이블이 캐싱되지 않을 수 있다는 것을 알고 있지만, 이것은 sc에서 개체를 제거하는 것과 같지 않습니다. 가능한 한 수집 할 수 있습니다. library(sparklyr) library(dplyr) library(titanic) library(Lahma

8열

3답변

sparklyr을 사용하여 중첩 된 데이터를 처리하는 방법이 있습니까?

다음 예제에서는 meta 필드에지도 개체의 중첩 레코드가 들어있는 쪽모락 파일을로드했습니다. sparklyr은 이러한 문제를 해결하는 훌륭한 작업을 수행하는 것으로 보입니다. 그러나 tidyr::unnest은 SQL (또는 HQL - understandably - LATERAL VIEW explode()과 같이)로 변환되지 않으므로 사용할 수 없습니다. 데

1열

1답변

Spark DataFrame의 마지막 행

tail function과 같은 것을 사용하여 아래 데이터 프레임의 마지막 50 행을 arrange 또는 collect없이 스파크 릴을 사용하는 행 범위별로 인쇄하고 싶습니다. 일부 프레임은 다음과 같습니다. 대형이며 연속 열이 없습니다. library(sparklyr) library(dplyr) library(Lahman) spark_install

0열

1답변

SparklyR을 사용하여 인덱스별로 스파크 데이터 프레임 정렬을 검색

library(sparklyr) library(dplyr) library(Lahman) spark_install(version = "2.0.0") sc <- spark_connect(master = "local") batting_tbl <- copy_to(sc, Lahman::Batting, "batting"); batting_tbl bat

4열

1답변

열 데이터 유형을 스파크리를 사용하여 요소로 변경

저는 Spark에 매우 익숙하며 현재 sparkly 패키지를 통해 R API를 사용하고 있습니다. 하이브 쿼리에서 Spark 데이터 프레임을 만들었습니다. 데이터 형식이 원본 테이블에서 올바르게 지정되지 않았으므로 dplyr 패키지의 함수를 활용하여 데이터 형식을 다시 설정하려고합니다. 다음은 내가 시도한 코드입니다. prod_dev <- sdf_load_

1열

1답변

sparklyr에서 힙 공간이 부족하지만 충분한 메모리가 있습니다.

상당히 작은 데이터 세트에서도 힙 공간 오류가 발생합니다. 나는 내가 시스템 메모리를 다 사용하고 있지 않다는 것을 확신 할 수있다. 예를 들어 약 20,000 개의 행과 9 개의 열을 포함하는 데이터 세트가 디스크에서 1GB를 차지한다고 가정 해보십시오. 30GB의 메모리가있는 Google Compute 노드에서 사용하고 있습니다. df이라는 데이터 프레