답변

1

다음은 웹 페이지를 한 줄씩 읽는 간단한 예입니다. 그러나 HTML이 으로 나뉘어 있다는 보장은 없습니다. (그것은 그들이 1300 이상,이 경우입니다.)

import re 
import urllib.request 
from collections import Counter 

URL = 'https://simple.wikipedia.org/wiki/India' 

counter = Counter() 

with urllib.request.urlopen(URL) as source: 
    for line in source: 
     words = re.split(r"[^A-Z]+", line.decode('utf-8'), flags=re.I) 
     counter.update(words) 

for word in ['India', 'Indian', 'Indians']: 
    print('{}: {}'.format(word, counter[word])) 

OUTPUT

> python3 test.py 
India: 547 
Indian: 75 
Indians: 11 
> 

가 페이지뿐만 아니라 컨텐츠의 HTML 구조에 나타나는 경우도 조건을 계산합니다.

콘텐츠에 집중하려면 선호하는 MediaWiki API를 사용하여 콘텐츠를 추출하는 Pywikibot python library을 고려하십시오. 그러나 피하려는 콘텐츠를 "한 번에 전체 페이지"모델을 기반으로 한 것처럼 보입니다. . 그럼에도 불구하고, 해당 모듈의 문서는 검토하고 싶은 유사하지만보다 고급 패키지 목록을 가리 킵니다.