2014-12-01 1 views
0

내 HTML 코드BeautifulSoup4 : 텍스트에 악센트 부호가있는 문자가 포함 된 HTML 요소를 찾는 방법은 무엇입니까?

<td> Open </td> 

이 태그가 다른 하나를 내가 사용

<td> Prévu </td> 

soup.find(text='Open') 

(수프는 HTML 페이지입니다) 그것을 발견하지만 때 사용하게되면

soup.find(text='Prévu') 

결과가 없습니다 (없음 개체).

이 두 키워드를 찾는 목적은 테이블의 특정 요소가 열기 및 Prévu (테이블이 형식이 잘못되었습니다되는 값 이 있는지 여부를 볼 수 있지만, 검색 자체가되지 않습니다, 그래서 정말에 의존 할 수 없다 특정 셀과 일치하도록 고정 된 구조).

문제는 악센트 부호가있는 문자에서 비롯된 것 같습니다. 나는 또한 시도했다.

&egrave; 
&eacute; 

그러나 같은 결과.

단서가 있습니까? 사전

답변

2

사용 유니 코드에서 덕분에 문제를 해결하기 위해 :

soup.find(text=u'Prévu') 
+0

덕분에 당신이 대답을. 방금 시도했지만 아무것도 실제로 변경되지 않습니다. 또한, 유니 코드만을 지원하는 Python3에서 BeatifulSoup4를 사용하고 있습니다. – dragonmnl

+0

소스 인코딩이 가정 된 인코딩과 일치하는지 확인하십시오. 예 : 소스 파일의 인코딩을 UTF-8로 설정하고 소스 파일의 헤드에'#coding = UTF-8'을 설정하십시오 –