bigdata

0열

2답변

나는 약 10 개의 Mio 문서가있는 내 mongodb에 콜렉션을 가지고있다. 나는 그들 모두를 가로 질러 어떤 분야를 바꾸고 싶다. 내 수정 상태를 변경하지 않기 때문에 동일한 문서를 다시 때마다 반환되기 때문에 MyModel.find({/* condition... */}).limit(500).exec() 을 다음과 같이 한 번에 촬영 너무 많은 데이

1열

1답변

팬다 큰 데이터 세트에서 범죄 '카운트'받기

내가 시도한 모든 다른 것들을 복사 할 수 없기 때문에 이것은 상당히 광범위한 질문입니다. 데이터 프레임을 생성하고 그래서 값을 채우기 위해 (DateTime 개체에 캐릭터와 무시 및 변환입니다) https://data.cityofnewyork.us/Public-Safety/NYPD-Complaint-Data-Historic/qgea-i56i 나는 CMPL

0열

1답변

맞춤 최적화에 SparkOptimizer 사용하기

몇 가지 맞춤 최적화 된 논리적 계획을 SparkOptimizer에 연결하고 실행 계획을 확인하고 있습니다. 아래와 같이 xyz.Scala IN/스파크/SQL/촉매/맞춤 배치로 '브로 배치를'갖는 ABC : Object xyz extends RuleExecutor{ val batches = Batch (custom rule1):: Batch(custom

0열

1답변

Lucene Taxonomy Writer Overflowing?

나는 Lucene 인덱스가 1 억 2 천만 개가 넘고,이 시점까지 원활하고 신속하게 작업하고 있습니다. 는 분류 작가 캐시 함께 할 수있는 뭔가가이 추적을 통해이 메모리 문제는 22gig 지수, 또는 뭔가 다른에 의한 경우가 java.lang.ArrayIndexOutOfBoundsException: -65536 lemur at org.apache.luce

0열

1답변

Hadoop Mapreduce, 맵 출력으로 맵퍼에 입력 된 txt 파일을 다시 쓰려면 어떻게해야합니까?

k-means 알고리즘을 수행하기 위해 map reduce 프로그램을 만들려고합니다. map reduce를 사용하는 것이 반복 알고리즘을 수행하는 최선의 방법이 아니라는 것을 알고 있습니다. 매퍼 및 감속기 클래스를 만들었습니다. 매퍼 코드에서 입력 파일을 읽었습니다. map reduce가 완료되면 같은 입력 파일에 결과가 저장되기를 원합니다. 출력 파일을

0열

1답변

대량 DocumentDB 삽입은 CPU 사용량을 늘립니다.

C#을 사용하여 DocumentDB에 80 레코드/초를 삽입합니다. 모든 것이 잘 작동하지만 서버 CPU 사용률이 90 %에 이르면 응용 프로그램이 손상됩니다. 싱글 톤 DocumentClient, 인덱싱, 처리량 제한, 직접 연결 모드, TCP 연결, 재시도 정책, 첫 번째 요청 전에 안전하게 연결을 포함하여 모든 작업을 처리했습니다. 누구나 이것에 대한

0열

1답변

다중 분할 영역을 만들기위한 분할 하이브 파티션

load_date (DD-MM-YYYY)로 분할 된 외부 하이브 테이블이 있습니다. 그러나 첫 번째 기간은 01-01-2000이 1980 년부터 2000 년까지의 모든 데이터를 가지고 있다고 가정합니다. 기존 데이터를 유지하면서 이전 데이터에 대한 파티션을 추가로 만들 수는 있습니까 (로드 날짜가 01-01-2000보다 큰 데이터) 여전히 사용 가능

0열

1답변

카산드라 OOM 충돌

많은 카산드라 및 OOM 관련 문제가 있음을 알고 있지만이 문제는 조금 다릅니다. 저희 회사는 베타 단계에서 Cassandra 3.9를 실행하는 제품에 대한 테스트 환경을 갖추고 있습니다. 이 환경은 4 개의 vCPU와 8GB의 RAM이있는 단일 노드에서 실행됩니다. 5 개월 동안이 환경에는 정기적 인 데이터가 제공되었으므로 하루에 약 40,000 개의 행

1열

1답변

Java를 사용하여 HDFS의 한 디렉터리에서 HDFS의 다른 디렉터리로 복사

HDFS의 한 디렉터리에서 HDFS의 다른 디렉터리로 데이터를 복사하려고하는데 몇 가지 문제가 있습니다. 이것은 나의 코드 스 니펫이다. Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); LOGGER.info("Connected"); Pa

0열

1답변

탄성 검색 부분 부분 업데이트

elasticsearch에서 업데이트 할 데이터가 6kk 있습니다. PHP를 사용해야합니다. 설명서를 검색 한 결과 Bulk Indexing이지만 이전 데이터를 유지하지 못했습니다. 는 내가 가진 : 업데이트 [ { 'name': 'Jonatahn', 'age' : 21 } ] 내 코드 : $params =[