2017-05-08 9 views
2

나는이 치료법으로 개선하기 위해 site의 장난감 크롤러를 만들고 있습니다. 따라서, scrapy 쉘에서 나는 시도 :특정 html 태그의 내용을 치료 또는 아름다운 스프로 추출하는 방법은 무엇입니까?

In [1]: for e in response.css('meta.keywords').extract(): 
    ...:  print(e) 

Out: 

<meta class="keywords" itemprop="keywords" content="abilities,choices"> 
<meta class="keywords" itemprop="keywords" content="inspirational,life,live,miracle,miracles"> 
<meta class="keywords" itemprop="keywords" content="aliteracy,books,classic,humor"> 
<meta class="keywords" itemprop="keywords" content="be-yourself,inspirational"> 
<meta class="keywords" itemprop="keywords" content="adulthood,success,value"> 
<meta class="keywords" itemprop="keywords" content="life,love"> 
<meta class="keywords" itemprop="keywords" content="edison,failure,inspirational,paraphrased"> 
<meta class="keywords" itemprop="keywords" content="misattributed-eleanor-roosevelt"> 
<meta class="keywords" itemprop="keywords" content="humor,obvious,simile"> 

아름다운 수프 또는 scrapy으로 나는 각 meta의 내용을 얻을 수있는 방법?.

+1

단순히 'e.content'를 사용하십시오. –

+0

무엇을 사용합니까? 치료 또는 beautifulsoup ... –

답변

2

당신은 당신의 선택을 조정하여 한 번에 그것을 실제로 할 수 attr이 Scrapy 자체에 의해 추가 된 표준이 아닌 custom selector입니다

for e in response.css('meta.keywords::attr(content)').extract(): 
    print(e) 

하는 것으로.