scalding

0열

2답변

끓는 자습서 : 데이터에 하나 개 이상의 경로에서 누락 :</p> <p>: 목록 (튜토리얼/데이터/hello.txt) 내가 명령을 끓는 튜토리얼 (<a href="https://github.com/Cascading/scalding-tutorial/" rel="nofollow">https://github.com/Cascading/scalding-tutorial/</a>)를 실행하려고하면 SSH와 rsync를 구성한 후

$ 스크립트/scald.rb --hdfs 튜토리얼/Tutorial0.scala 나는 다음과 같은 오류 얻을 : 파일 튜토리얼/데이터/hello.txt가 실제로 존재에도 불구하고 com.twitter.scalding.InvalidSourceException: [com.twitter.scalding.TextLineWrappedArray(tutorial/data

1열

1답변

Scalding에서 JSON 중첩 입력을 구문 분석

구문 분석하고 처리해야하는 JSON 입력이 일부 있습니다 (JSON을 처음 사용하는 경우). 다음과 같이 내 입력은 다음과 같습니다 {"id":"id2","v":2, "d":{"Location":"JPN"}) {"id":"id1","v":1, "d":{"Location":"USA"}} {"id":"id2","v":1, "d":{"Location":"JP

0열

1답변

Scalding DSL이 일반적인 스칼라 코드로 어떻게 변환됩니까?

Scalding DSL이 일반적인 스칼라 코드로 어떻게 변환되는지 알아보십시오. 예를 들어 https://github.com/twitter/scalding/wiki/Fields-based-API-Reference#sortBy : val fasterBirds = birds.map('speed -> 'doubledSpeed) { speed : Int => sp

0열

1답변

Scala 클래스를 Scalding 또는 MongoDB로 매핑

Scala와 NoSQL 데이터베이스를 처음 사용했습니다. RDBMS 솔루션처럼 Scala 개체를 NoSQL 데이터베이스에 매핑하는 ORM 도구가 있는지 알고 싶습니다.

1열

1답변

RichPipe에서 값 가져 오기

3 개의 필드가있는 RichPipe가 있습니다. name : String, time : Long 및 value : Int. 특정 이름, 시간 쌍에 대한 값을 가져와야합니다. 내가 어떻게 해? 나는 그것이 매우 비밀스럽고 이것을하는 어떤 예제도 찾을 수 없기 때문에 문서를 긁어서 알 수 없다.

1열

1답변

합법적 인 코드가 스켈링에서 컴파일되지 않습니다.

Scalding에서 MapReduce 작업을 작성하고 있으며, 완전히 합법적 인 코드를 컴파일하는 데 어려움이 있습니다. val persistenceBins = List[Int](1000 * 60 * 60, 2 * 1000 * 60 * 60, 4 * 1000 * 60 * 60) val persistenceValues = persistenceBins.map

2열

1답변

libjars에 전체 클래스 경로를 쓰지 않고도 scaling/hadoop 작업을 수행하는 방법

libjars를 사용하지 않고 classpath가 필요한 scalding 작업을 실행하고 명시 적으로 쉼표로 구분하여 각 jar를 작성하는 방법이 있습니까? 모든 jar 파일을 lib에 넣고 싶습니다. -libjars =./lib/*와 모든 jar 파일을 쓰는 것보다 싶습니다. 고전적인 방법이 있습니까 ?? 끓는 버전 끓는-core_2.10를 사용 0.8.

1열

1답변

GROUPBY toList 요소 순서

나는 여러 필드와 RichPipe이, 이제 가정 해 봅시다. 그런 다음 각 그룹의 목록에서 scanLeft 작업을 수행하고 '섹스 및 결과'가 포함 된 파이프를 가져 오려고합니다. 나는 현재 이것을 수행하여 pipe.groupBy('sex) {_.toList('weight -> 'weights).toList('age - 'ages)} 을 수행 한 다음

0열

1답변

커스텀 ding핑 탭 (또는 Spark와 동등한 것)

HBase의 Hadoop 클러스터에있는 일부 데이터를 사용자 정의 파일 형식으로 덤프하려고합니다. 내가하고 싶은 무엇 는 더 많거나 적은 다음과 같은 몇 가지 계산 기능에 의한 끓는 파이프 또는 유사한 그룹 항목으로 기록의 분산 목록에서 시작 동일한 그룹에 속한 항목이 각 그룹에 동일한 서버에 상주하도록 정렬하고, 정렬을 포함하는 변환을 적용하고 결과를 디

1열

1답변

작업이 맵퍼 또는 리듀서없이 실행됩니다.

로컬 모드에서 크게 실행되는 스케이팅을 사용하여 작업을 작성했습니다. 그러나 hdfs 모드 (동일한 파일에 있음)로 실행하려고하면 아무 것도하지 않습니다. 보다 정확하게는 첫 번째 단계에는 작업이 없습니다 (매퍼 또는 감속기). 이후 단계에서는 분명히 아무 것도하지 않습니다. 예외에 대한 로그를 grepping 해본 후 try-catch에 내 코드를 래핑