Iterable [MyObject] (groupBy보다 RDD [MyObject])에 포함 된 일부 데이터를 "추출해야"합니다. 범위 별 스칼라 RDD 개수
내 초기 RDD [MyObject를] : 내가하고 GROUPBY startCity으로 연령 범위별로 계산해야|-----------|---------|----------|
| startCity | endCity | Customer |
|-----------|---------|----------|
| Paris | London | ID | Age |
| | |----|-----|
| | | 1 | 1 |
| | |----|-----|
| | | 2 | 1 |
| | |----|-----|
| | | 3 | 50 |
|-----------|---------|----------|
| Paris | London | ID | Age |
| | |----|-----|
| | | 5 | 40 |
| | |----|-----|
| | | 6 | 41 |
| | |----|-----|
| | | 7 | 2 |
|-----------|---------|----|-----|
| New-York | Paris | ID | Age |
| | |----|-----|
| | | 9 | 15 |
| | |----|-----|
| | | 10| 16 |
| | |----|-----|
| | | 11| 46 |
|-----------|---------|----|-----|
| New-York | Paris | ID | Age |
| | |----|-----|
| | | 13| 7 |
| | |----|-----|
| | | 14| 9 |
| | |----|-----|
| | | 15| 60 |
|-----------|---------|----|-----|
| Barcelona | London | ID | Age |
| | |----|-----|
| | | 17| 66 |
| | |----|-----|
| | | 18| 53 |
| | |----|-----|
| | | 19| 11 |
|-----------|---------|----|-----|
- endCity에게
는 최종 결과는 다음과 같아야합니다
|-----------|---------|-------------|
| startCity | endCity | Customer |
|-----------|---------|-------------|
| Paris | London | Range| Count|
| | |------|------|
| | |0-2 | 3 |
| | |------|------|
| | |3-18 | 0 |
| | |------|------|
| | |19-99 | 3 |
|-----------|---------|-------------|
| New-York | Paris | Range| Count|
| | |------|------|
| | |0-2 | 0 |
| | |------|------|
| | |3-18 | 3 |
| | |------|------|
| | |19-99 | 2 |
|-----------|---------|-------------|
| Barcelona | London | Range| Count|
| | |------|------|
| | |0-2 | 0 |
| | |------|------|
| | |3-18 | 1 |
| | |------|------|
| | |19-99 | 2 |
|-----------|---------|-------------|
에서 순간 나는 같은 데이터 (처음에는 0-2 범위, 그 다음은 10-20, 그리고 21-99)를 3 번 계산합니다.
처럼 :
Iterable[MyObject] ite
ite.count(x => x.age match {
case Some(age) => { age >= 0 && age < 2 }
}
그것은 나에게 정수를 제공하여 일하고 있지만 전혀 나는 많은 시간을 계산해야하기 때문에 내가 생각 효율이 제발 할 수있는 가장 좋은 방법은 무엇입니까?
감사
편집 : 고객의 객체 인의 RDD와 그런 경우 클래스
은 'Customer'가 배열입니까? –
고객이 객체입니다 – Drakax
우리가 당신을 도울 수 있도록 객체 유형을 공유 할 수 있습니까? 그것은 사건 계급인가요? –