2016-11-27 2 views
-1

파이썬이 문서를 "읽도록"하는 방법이 있습니까? 불필요한 요소를 제외하고 1과 0의 인접성 행렬을 작성 하시겠습니까? 인 링크, 아웃 링크 및 매달려있는 페이지 (검색에서 제외해야 함)가 포함 된 500 개의 방문 페이지 스프레드 시트가 있습니다.스프레드 시트에서 데이터 읽기 및 파이썬에서 매트릭스 구성

for each visited page vp 
for each outlink of vp 
    if link relative 
    revolve link 
    if ink to visited page 
    write 1 
    else 
if link dangling 
    ignore it 
else 
    write 0 

어떻게 든 파이썬에서이 아이디어를 구현할 수 :

나는 다음과 같이 보일 것이다 원유 의사에 대한 생각? 또는 Matlab 또는 R을 사용하면 더 유용할까요? 크롤러 결과에

링크 : http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.txt http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.xlsx

답변

1

, 문서를 "읽기"파이썬을 불필요한 요소를 제외하고 1과 0의 인접 행렬을 구축 할 수있는 방법이 있나요?

은 개방과 독서 문서를 시작 https://docs.python.org/2/tutorial/inputoutput.html

쉬운 방법을 참조하십시오 : 질문의

f = open('workfile', 'r') 
fileLines = f.readlines() 

#do something with your lines 
#properly adapt your pseudocode to 
#the extracted data 

f.close() 

나머지는 범위 밖이다.