$ 스크립트/scald.rb --hdfs 튜토리얼/Tutorial0.scala 나는 다음과 같은 오류 얻을 : 파일 튜토리얼/데이터/hello.txt가 실제로 존재에도 불구하고 com.twitter.scalding.InvalidSourceException: [com.twitter.scalding.TextLineWrappedArray(tutorial/data
구문 분석하고 처리해야하는 JSON 입력이 일부 있습니다 (JSON을 처음 사용하는 경우). 다음과 같이 내 입력은 다음과 같습니다 {"id":"id2","v":2, "d":{"Location":"JPN"})
{"id":"id1","v":1, "d":{"Location":"USA"}}
{"id":"id2","v":1, "d":{"Location":"JP
Scalding DSL이 일반적인 스칼라 코드로 어떻게 변환되는지 알아보십시오. 예를 들어 https://github.com/twitter/scalding/wiki/Fields-based-API-Reference#sortBy : val fasterBirds = birds.map('speed -> 'doubledSpeed) { speed : Int => sp
3 개의 필드가있는 RichPipe가 있습니다. name : String, time : Long 및 value : Int. 특정 이름, 시간 쌍에 대한 값을 가져와야합니다. 내가 어떻게 해? 나는 그것이 매우 비밀스럽고 이것을하는 어떤 예제도 찾을 수 없기 때문에 문서를 긁어서 알 수 없다.
Scalding에서 MapReduce 작업을 작성하고 있으며, 완전히 합법적 인 코드를 컴파일하는 데 어려움이 있습니다. val persistenceBins = List[Int](1000 * 60 * 60, 2 * 1000 * 60 * 60, 4 * 1000 * 60 * 60)
val persistenceValues = persistenceBins.map
libjars를 사용하지 않고 classpath가 필요한 scalding 작업을 실행하고 명시 적으로 쉼표로 구분하여 각 jar를 작성하는 방법이 있습니까? 모든 jar 파일을 lib에 넣고 싶습니다. -libjars =./lib/*와 모든 jar 파일을 쓰는 것보다 싶습니다. 고전적인 방법이 있습니까 ?? 끓는 버전 끓는-core_2.10를 사용 0.8.
나는 여러 필드와 RichPipe이, 이제 가정 해 봅시다. 그런 다음 각 그룹의 목록에서 scanLeft 작업을 수행하고 '섹스 및 결과'가 포함 된 파이프를 가져 오려고합니다. 나는 현재 이것을 수행하여 pipe.groupBy('sex) {_.toList('weight -> 'weights).toList('age - 'ages)}
을 수행 한 다음
HBase의 Hadoop 클러스터에있는 일부 데이터를 사용자 정의 파일 형식으로 덤프하려고합니다. 내가하고 싶은 무엇 는 더 많거나 적은 다음과 같은 몇 가지 계산 기능에 의한 끓는 파이프 또는 유사한 그룹 항목으로 기록의 분산 목록에서 시작 동일한 그룹에 속한 항목이 각 그룹에 동일한 서버에 상주하도록 정렬하고, 정렬을 포함하는 변환을 적용하고 결과를 디
로컬 모드에서 크게 실행되는 스케이팅을 사용하여 작업을 작성했습니다. 그러나 hdfs 모드 (동일한 파일에 있음)로 실행하려고하면 아무 것도하지 않습니다. 보다 정확하게는 첫 번째 단계에는 작업이 없습니다 (매퍼 또는 감속기). 이후 단계에서는 분명히 아무 것도하지 않습니다. 예외에 대한 로그를 grepping 해본 후 try-catch에 내 코드를 래핑