distributed-computing

6열

2답변

Pyspark 간단한 재 파티션 및 toPandas()가 600,000 개 이상의 행에서 완료되지 않습니다.

여러 필드가 포함 된 데이터 프레임을 읽고 JSON 데이터를 두 열을 기준으로 다시 분할하고 Pandas로 변환하는 JSON 데이터가 있습니다. 이 작업은 약간의 오류가있는 단지 600,000 행의 데이터에서 EMR을 사용하지 못합니다. 나는 또한 스파크 드라이버의 메모리 설정을 늘렸고 여전히 해상도를 보지 못했다. conf = SparkConf().set

3열

1답변

Akka 오류 복구 : 게이트 된 상태

akka documentation에는 원격 시스템과의 연결이 게이트 된 상태 인 경우 모든 아웃 바운드 메시지가 삭제됩니다. 이것은 그들이 즉시 죽은 서신에 배달된다는 것을 의미합니까, 아니면 국가가 격리 된 것으로 바뀌면 죽은 서신에만 배달됩니까? 로그는 격리 상태에 대한 명시 적 있지만, 상태 문이 없습니다 : 때문에 성공적인 인바운드 연결의 활성 상태

2열

1답변

스파크 RDD : 통계를 가장 효율적으로 계산하는 방법은 무엇입니까? 유사한 다음 튜플의 RDD의 존재를 가정

: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ... 각 키에 해당하는 통계를 계산하는 가장 효율적인 (그리고 이상적으로 분산) 방법은 무엇입니까? (이 순간, 나는 특히, 표준 편차/분산을 계산하기 위해 찾고 있어요.) 내가 알고있는 것처럼, 내 옵션에 금액

0열

1답변

메모리에 도메인 객체를로드하고 데이터베이스 쿼리를 수행하지 않아도되는 몇 가지 기술은 무엇입니까?

실시간, 대용량, 지연 시간이 짧은 응용 프로그램 (예 : 실시간 입찰, 광고 게재)의 경우 메모리에 모든 도메인 객체 (예 : 사용자, 캠페인, 앱 등)를로드하는 기술은 무엇입니까? etc)를 사용하여 부팅 할 때로드하고 데이터베이스 쿼리를 피하십시오. 사람들이 실제로 어떻게 구현하는지 이해하고 싶습니다. (예 : 트위터, 페이 스북 등) 그리고 그것으로

3열

2답변

그룹 통신 서비스 또는 paxos에서 로깅 메시지를 실용적으로 유지합니까?

네트워크 파티션 또는 노드 크래시의 경우 대부분의 분산 형 원자 브로드 캐스트 프로토콜 (확장 가상 동기화 또는 Paxos와 같은)은 크래시 또는 파티션 된 노드가 클러스터에 다시 가입 할 때까지 로그 메시지를 보관하기 위해 노드를 실행해야합니다. 노드가 클러스터에 다시 참여하면 기록 된 메시지를 재생하면 현재 상태를 다시 확보 할 수 있습니다. 제 질문은

0열

2답변

데이터가 결국 두 개의 Azure blob에 기록되도록하는 방법은 무엇입니까?

우리는 이벤트 데이터를 Azure Append-Only blob에 저장하는 멀티 테넌트 Azure Service Fabric 애플리케이션을 설계하고 있습니다. 두 종류의 얼룩이 있습니다. 병합 모양 (입주자 당 한 명); 및 인스턴스 모양 (세입자가 소유 한 각 "개체"에 대한 한 - 세입자 별이의 100K +이있을거야) 인스턴스 덩어리 당 단일 작가가 있

6열

1답변

Dask.distributed의 배율 제한은 무엇입니까?

수백 개의 작업자 노드가있는 Dask.distributed 배포의 일화 적 사례가 있습니까? 이 크기의 클러스터에 맞게 배포됩니까?

0열

1답변

분산 시스템에서 언제 공감대 알고리즘을 정확히 사용합니까?

분산 시스템에서 우리는 동일한 데이터의 여러 복사본을 사용하여 해결되는 네트워크 파티션 오류를 처리하기로되어 있습니다. 우리가 합의 알고리즘을 사용하는 유일한 곳입니까? 2PC/3PC/Paxos의 차이점은 무엇입니까? (그렇다면 2PC/3PC, PC도 공감 알고리즘의 종류입니까?)

1열

1답변

TestHazelcastFactory 클라이언트 모의

내가 조롱 HazelCast intance.Here에 연결 조롱 hazelcast 클라이언트를 만들기 위해 TestHazelcastFactory를 사용하려고 작동하지 않습니다 내가 서버 TestHazelcastFactory factory = new TestHazelcastFactory(); HazelcastInstance instance= factory.

2열

1답변

Spark의 합계가 좋지 않음

Unbalanced factor of KMeans?을 기반으로 불균형 계수를 계산하려고하지만 실패했습니다. RDD 의 모든 요소는 키이고 클러스터는 값의 터플 인 쌍입니다. 이 모든 것은 ID입니다. 내가 무슨 선물 아래 : In [1]: r2_10.collect() Out[1]: [(0, ('438728517', '28138008')), (13824