그래서, 나는 약 5,700,000 페이지의 페이지 랭크를 계산하기 위해 위키 피 디아 (Wikipedia) 덤프를 만들고 있습니다. 파일이 사전 처리되어 XML이 아닙니다.
는 그들은 http://haselgrove.id.au/wikipedia.htm 에서 가져온 형식은됩니다Scipy를 사용하여 거대한 스파 스 매트릭스 구성을 처리하는 방법은 무엇입니까?
from_page(1): to(12) to(13) to(14)..
from_page(2): to(21) to(22)..
.
.
.
from_page(5,700,000): to(xy) to(xz)
을 등등. 그래서. 기본적으로 이것은 [5,700,000*5,700,000]
매트릭스의 구성으로 4 기가의 RAM을 깨뜨릴 수 있습니다. , 매우 - 매우 희소하기 때문에, 그게 지금 내 문제가 scipy.lil.sparse
또는 scipy.dok.sparse
를 사용하여 저장할 쉽게 :
땅에서 나는 희소 행렬에 링크 정보로 .txt
파일을 변환 가야합니까? 그것을 읽고 정상적인 N * N 행렬로 계산 한 다음 변환하십시오. 나는 잘 모른다.
또한 링크가 여러 줄에 걸쳐있는 경우도 있으므로이를 처리하는 올바른 방법은 무엇입니까?
예 : 임의의 선이 같은입니다 .. 정확히 같은
[
1: 2 3 5 64636 867
2:355 776 2342 676 232
3: 545 64646 234242 55455 141414 454545 43
4234 5545345 2423424545
4:454 6776
]
: 없음 쉼표 & 분리 문자.
희소 행렬 구성 및 행을 통한 데이터 처리에 대한 정보는 도움이됩니다.
스파 스 행 목록에서 (각 행은 (열, 값) 쌍의 목록이 됨) 직접'lil_matrix'를 빌드하는 방법이 있습니까? 이는 명백한 접근 방식처럼 보이지만 지원되지 않는 것 같습니다. – nealmcb