0
식당의 리뷰를 얻는 코드입니다. 나는 리뷰를 수집하고있다.숫자로 제한하지 않고 범위를 지정하는 방법
범위를 지정하고 가져옵니다. 그러나 문제가 있습니다. 각 상점에는 다른 수의 리뷰가 있습니다. 작은 리뷰가있는 상점은 곧 다음 상점에 가야합니다.
너무 큰 범위에서 고통 받고 있습니다. 그러나 범위를 줄일 수는 없습니다. 일부 상점의 리뷰가이 범위에 있기 때문입니다.
효과적으로 어떻게 작업 할 수 있습니까?
이 코드를 검색하는 모든 (요소)를 찾았습니다. 그러나 실수로 코드를 적용했는지 여부는 알 수 없습니다. https://www.yelp.com/developers/documentation/v3
이 프로그래밍 방식으로 사이트와 상호 작용하는 신뢰할 수있는 유일한 방법입니다
#python3
import sys
from bs4 import BeautifulSoup
import urllib.request
import requests
from urllib.parse import quote
import time
import os
import xlwt
import random
import re
FISRT_URL = "https://www.yelp.com/search?
find_desc=Korean+Food&find_loc=Seattle,+WA&start="
LAST_URL = "&cflt=korean"
def get_link(URL, doc_name):
global jisu_i
global num
global page
for jisu_i in range(1):
current_page_num = 20 + jisu_i*10
position = URL.index('t=')
URL_with_page_num = URL[: position+2] + str(current_page_num) \
+ URL[position+2 :]
print(URL_with_page_num)
importurl = URL_with_page_num
r = requests.get(importurl)
soup = BeautifulSoup(r.content.decode('euc-kr','replace'), "lxml")
time.sleep(random.randint(10, 15))
for title in soup.find_all('h3')[page+2:21]:
page = page + 1
title_link = title.select('a')
for jisu_m in range(130):
print(page)
last_URL = title_link[0]['href']
print(last_URL)
first_URL = "https://www.yelp.com"
global article_URL
article_URL = first_URL + last_URL
time.sleep(random.randint(15, 30))
jisuurl = article_URL
for k in range(99): #
jisu_page_num = 0 + k * 20 #
position = jisuurl.index('?')
URL_with_page_num = jisuurl[: position + 1] + str("start=") + str(jisu_page_num)
jisu_with_page_num = URL_with_page_num
print(jisu_with_page_num)
jisu_importurl = jisu_with_page_num
get_text(URL, jisu_importurl, doc_name)
time.sleep(random.randint(40,180))