0
전체 기사를 저장하지 않고 위키피디아 기사에서 특정 단어의 빈도를 어떻게 얻을 수 있습니까? 예를 들어,이 기사에서 "인도"라는 단어가 나타날 수 있습니다. https://simple.wikipedia.org/wiki/India위키 피 디아에서의 빈번한 언어 기사
전체 기사를 저장하지 않고 위키피디아 기사에서 특정 단어의 빈도를 어떻게 얻을 수 있습니까? 예를 들어,이 기사에서 "인도"라는 단어가 나타날 수 있습니다. https://simple.wikipedia.org/wiki/India위키 피 디아에서의 빈번한 언어 기사
다음은 웹 페이지를 한 줄씩 읽는 간단한 예입니다. 그러나 HTML이 줄으로 나뉘어 있다는 보장은 없습니다. (그것은 그들이 1300 이상,이 경우입니다.)
import re
import urllib.request
from collections import Counter
URL = 'https://simple.wikipedia.org/wiki/India'
counter = Counter()
with urllib.request.urlopen(URL) as source:
for line in source:
words = re.split(r"[^A-Z]+", line.decode('utf-8'), flags=re.I)
counter.update(words)
for word in ['India', 'Indian', 'Indians']:
print('{}: {}'.format(word, counter[word]))
OUTPUT
> python3 test.py
India: 547
Indian: 75
Indians: 11
>
가 페이지뿐만 아니라 컨텐츠의 HTML 구조에 나타나는 경우도 조건을 계산합니다.
콘텐츠에 집중하려면 선호하는 MediaWiki API를 사용하여 콘텐츠를 추출하는 Pywikibot python library을 고려하십시오. 그러나 피하려는 콘텐츠를 "한 번에 전체 페이지"모델을 기반으로 한 것처럼 보입니다. . 그럼에도 불구하고, 해당 모듈의 문서는 검토하고 싶은 유사하지만보다 고급 패키지 목록을 가리 킵니다.