2014-10-11 5 views
-2
wiki_page = urlopen('http://en.wikipedia.org/wiki/superman') 
html_code = wiki_page.read() 
headline = findall ('<h1.*><span.*>(.+)</span></h1>', html_code) 

그래서 나는이 예제 코드는 단어 "슈퍼맨"과 끝을 통해 findall은 쿼리의 시작부터 모든 것이 밖으로 뱉어 이유에 대한 설명을 원하는 예이 찾기 모든 코드, 아래 그리고 자동 결과를 출력한다 : re.findall 함수는 먼저 포착 기 내부 문자 뱉어하려고등록 - 예 설명

<h1 id="firstHeading" class="firstHeading" lang="en"> 
    <span dir="auto"> 
     Superman 
    </span> 
</h1> 
+0

편집 my @ msrd0이 올바르지 않습니다. 정규식에 따라 공백이나 줄 바꿈 문자가 없어야합니다. – vks

답변

1

때문에. 캡처 그룹이 없으면 일치하는 문자열을 뱉어냅니다.

일치하는 문자열을 표시하려면 정규식 inorder에서 캡처 그룹을 제거하십시오.

<h1.*><span.*>.+?</span></h1>