최종 목표는 Google 사이트 페이지에서 일부 데이터를 가져 오는 것입니다. 나는 특정 콘텐츠 피드를 다운로드 GDATA - 파이썬 클라이언트 (v2.0.17)를 사용하려고 해요 :Google 사이트 도구 페이지 다운로드 gdata-python-client를 사용하는 콘텐츠 피드
self.client = gdata.sites.client.SitesClient(source=SOURCE_APP_NAME)
self.client.client_login(USERNAME, PASSWORD, source=SOURCE_APP_NAME, service=self.client.auth_service)
self.client.site = SITE
self.client.domain = DOMAIN
uri = '%s?path=%s' % (self.client.MakeContentFeedUri(), '[PAGE PATH]')
feed = self.client.GetContentFeed(uri=uri)
entry = feed.entry[0]
...
결과 entry.content는 XHTML 형식의 페이지 콘텐츠가 있습니다. 그러나이 트리는 페이지의 계획 텍스트 데이터를 포함하지 않습니다. html 페이지 구조 및 링크 만.
예를 들어 테스트 페이지는
<div>Some text</div>
ContentFeed 항목이 텍스트 = 없음 만 DIV 노드를 가지고있다.
gdata-python-client 요청/응답을 디버깅했으며 원시 버퍼의 서버에서 확인 된 데이터 (콘텐츠의 모든 계획 텍스트 데이터)를 검사했습니다. 따라서 Google API 버그입니다.
몇 가지 해결 방법이있을 수 있습니까? 일부 일반적인 요청 매개 변수를 사용할 수 있습니까? 여기서 뭐가 잘못 됐어? 이 거의 동일한 당신과의,
import atom.data
import gdata.sites.client
import gdata.sites.data
client = gdata.sites.client.SitesClient(source='yourCo-yourAppName-v1', site='examplesite', domain='example.com')
client.ClientLogin('[email protected]', 'examplepassword', client.source);
uri = '%s?path=%s' % (client.MakeContentFeedUri(), '/home')
feed = client.GetContentFeed(uri=uri)
entry = feed.entry[0]
print entry
을 감안할 때, 그러나 당신이 증명 돕거나 무엇인가를 반증 있습니다