Pool.map
을 사용하고
: 데이터 소스에서 배열의 수백만파이썬 multiprocessing.Pool & 메모리
- "커서"
- 계산
- 데이터 싱크에 결과를 저장
결과는 독립적입니다.
저는 메모리 요구를 피할 수 있는지 궁금합니다. 처음에는 에서 모든 배열은 파이썬으로 들어가고 2와 3은 으로 진행됩니다. 어쨌든 속도 향상이 있습니다.
#data src and sink is in mongodb#
def scoring(some_arguments):
### some stuff and finally persist ###
collection.update({uid:_uid},{'$set':res_profile},upsert=True)
cursor = tracking.find(timeout=False)
score_proc_pool = Pool(options.cores)
#finaly I use a wrapper so I have only the document as input for map
score_proc_pool.map(scoring_wrapper,cursor,chunksize=10000)
내가 잘못했거나 더 좋은 방법이이 목적을 위해 파이썬이 있습니까?
코드 조각을 우리를 함께하기 위해 ? – usethedeathstar