위키 피 디아에서의 빈번한 언어 기사

전체 기사를 저장하지 않고 위키피디아 기사에서 특정 단어의 빈도를 어떻게 얻을 수 있습니까? 예를 들어,이 기사에서 "인도"라는 단어가 나타날 수 있습니다. https://simple.wikipedia.org/wiki/India 위키 피 디아에서의 빈번한 언어 기사

출처

2017-10-11 Sarthak Gupta

다음은 웹 페이지를 한 줄씩 읽는 간단한 예입니다. 그러나 HTML이 줄으로 나뉘어 있다는 보장은 없습니다. (그것은 그들이 1300 이상,이 경우입니다.)

import re 
import urllib.request 
from collections import Counter 

URL = 'https://simple.wikipedia.org/wiki/India' 

counter = Counter() 

with urllib.request.urlopen(URL) as source: 
    for line in source: 
     words = re.split(r"[^A-Z]+", line.decode('utf-8'), flags=re.I) 
     counter.update(words) 

for word in ['India', 'Indian', 'Indians']: 
    print('{}: {}'.format(word, counter[word]))

OUTPUT

> python3 test.py 
India: 547 
Indian: 75 
Indians: 11 
>

가 페이지뿐만 아니라 컨텐츠의 HTML 구조에 나타나는 경우도 조건을 계산합니다.

콘텐츠에 집중하려면 선호하는 MediaWiki API를 사용하여 콘텐츠를 추출하는 Pywikibot python library을 고려하십시오. 그러나 피하려는 콘텐츠를 "한 번에 전체 페이지"모델을 기반으로 한 것처럼 보입니다. . 그럼에도 불구하고, 해당 모듈의 문서는 검토하고 싶은 유사하지만보다 고급 패키지 목록을 가리 킵니다.

출처

2017-10-11 08:28:50 cdlane

위키 피 디아에서의 빈번한 언어 기사

답변

관련 문제