freebase 데이터 덤프를 사용하려하지만 파이썬으로 파일을 읽는 데 문제가 있음을 알 수 있습니다. 내 프로그램이 모든 라인을 읽을 수없는 것 같습니다. 이에파이썬에서 Freebase 데이터 덤프 읽기, 몇 줄 읽으세요?
def test2():
count=0
for line in open(FREEBASE_TOPIC):
count+=1
return count
def test3():
count=0
for line in open(FREEBASE_QUAD):
count+=1
return count
if __name__ == "__main__":
print "FREEBASE TOPIC - NR LINES:",test2()
print "FREEBASE QUAD - NR LINES:",test3()
결과 :
FREEBASE TOPIC - ITR TIME: 1.21000003815
FREEBASE TOPIC - NR LINES: 1643010
FREEBASE QUAD - ITER TIME: 0.797000169754
FREEBASE QUAD - NR LINES: 3155131
이 모든 것을 할 수 있습니다. 전체 프리 스탠드를 포함하는 것은 몇 줄로 보입니다. 그리고 1 초에 33GB 파일과 5GB 파일을 반복하는 방법을 알 수 없습니다.
무엇이 잘못 되었나요? 다운로드 과정에서 문제가 생길 경우를 대비하여 파일을 다시 다운로드하지만 연결로 인해 수십 년이 걸리므로 잠시 동안 묻습니다. 파일 크기가 정확하고 일부 줄이 인쇄되어 올바르게 보입니다.
open('file', 'rb')
가 그것을 해결해야
''wc -l yourfile''이 뭐라고 말합니까? – jterrace