2014-04-26 9 views
1

API 응답을 구문 분석하려고하지만 응답 데이터에 파이썬에 문제가있는 문자가 포함되어 있습니다.읽을 수없는 문자 구문 분석

API 응답 : electricity price | 19.52¢/kW·h (January 1, 2014) natural gas price | $11.05 per thousand cubic feet (January 15, 2014) heating oil price | $4.338/gal (March 17, 2014) propane price | $3.968/gal (March 17, 2014)

이 오류는 문자은 "킬로와트시 당 센트"에서 발생합니다.

전체 오류 : UnicodeEncodeError: 'ascii' codec can't encode character u'\xa2' in position 25: ordinal not in range(128)

응답이 터미널에 나타나는 : electricity price | 19.52\xa2/kW\xb7h (January 1, 2014)\nnatural gas price | $11.05 per thousand cubic feet (January 15, 2014)\nheating oil price | $4.338/gal (March 17, 2014)\npropane price | $3.968/gal (March 17, 2014)

어떻게이 문제를 문자 주변의 데이터를 분석 가겠어요? 나는 전체 텍스트가 필요 없으며, 그 안에 단지 수치 값이 필요하다. 당신의 도움을 주셔서 감사합니다.

편집 :

오류를 일으키는 코드 : 나는 또한 시도

search('electricity price | {:d}', energy) 

: 비슷한 결과가 있었다

search('electricity price | {:f}', energy) 

. energy은 위에 나열된 전체 문자열을 저장하는 변수입니다.

편집 2 :

전체 코드를 포함하여 API 호출 :

client = wolframalpha.Client('apikey') 
energy_query = 'utilities prices in ' + city + ' ' + state_abbr 
res = client.query(energy_query) 


energy = (next(res.results).text) 

search('electricity price | {:d}', energy) 

전체 역 추적 :

File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site- packages/flask/app.py", line 1836, in __call__ 
return self.wsgi_app(environ, start_response) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site-packages/flask/app.py", line 1820, in wsgi_app 
response = self.make_response(self.handle_exception(e)) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site- packages/flask/app.py", line 1403, in handle_exception 
reraise(exc_type, exc_value, tb) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site-packages/flask/app.py", line 1817, in wsgi_app 
response = self.full_dispatch_request() 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site-packages/flask/app.py", line 1477, in full_dispatch_request 
rv = self.handle_user_exception(e) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site-packages/flask/app.py", line 1381, in handle_user_exception 
reraise(exc_type, exc_value, tb) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site-packages/flask/app.py", line 1475, in full_dispatch_request 
rv = self.dispatch_request() 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site-packages/flask/app.py", line 1461, in dispatch_request 
return self.view_functions[rule.endpoint](**req.view_args) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/nulife.py", line 120, in index 
search('electricity price | {:d}', energy) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site- packages/parse.py", line 1041, in search 
return Parser(format, extra_types=extra_types).search(string, pos, endpos) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site- packages/parse.py", line 678, in search 
return self._generate_result(m) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site- packages/parse.py", line 699, in _generate_result 
fixed_fields[n] = self._type_conversions[n](fixed_fields[n], m) 
File "/Users/aaronpardes/Dropbox/Python/nuLife2/newlifenv/lib/python2.7/site-packages/parse.py", line 375, in f 
if string[0] == '-': 
TypeError: 'NoneType' object has no attribute '__getitem__' 
+0

오류를 생성하는 코드는 무엇입니까? – chepner

+0

또한 어떤 Python 버전을 사용하고 있습니까? –

+0

파이썬 2.7.5를 사용하고 있으며 원래의 질문에서 오류를 일으키는 코드를 포함 시켰습니다. – apardes

답변

4

energy입니다 이미 유니 코드 개체; 그것이 implict 인코딩을 첫 번째 (사용하여 ASCII, 기본 코덱) 트리거에 .decode()를 호출하려고 :

>>> energy = u'19.52¢/kW·h' 
>>> energy.decode('windows-1252') 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "/Users/mj/Development/venvs/stackoverflow-2.7/lib/python2.7/encodings/cp1252.py", line 15, in decode 
    return codecs.charmap_decode(input,errors,decoding_table) 
UnicodeEncodeError: 'ascii' codec can't encode character u'\xa2' in position 5: ordinal not in range(128) 

공지 예외를; 유니 코드 문자열을 디코딩하면 UnicodeEncodeError이 트리거되었습니다.

이것은 설계된 바와 같이 wolframalpha library은 ElementTree를 사용하여 XML 응답을 구문 분석합니다. 이는 항상 유니 코드 개체를 제공합니다.

업데이트가 끝난 후 parse library source code을 살펴 보았습니다. 코드에 버그가 있음을 알았습니다. 그들은 당신의 손 리터럴 문자열에서 정규 표현식 메타 문자를 탈출하지 않는 당신이 그것을 작동| 문자 탈출 경우. 나는 이것에 대해 parse 프로젝트와 bug report을 연

>>> search('electricity price \\| {:f}', u'electricity price | 19.52¢/kW·h') 
<Result (19.52,) {}> 

합니다.

라이브러리는 ASCII 텍스트 만 구문 분석 할 수 있습니다. 최소한 단어 문자로 ¢/kW·h을 일치 시키려고하지 마십시오.

업데이트 : parse version 1.6.4이 릴리스되어이 특정 버그가 수정되었습니다.

+0

정말 확실한 솔루션입니다. 내 "짐작"답변을 제거하십시오. –

+0

불행히도 문제는 지속됩니다. – apardes

+0

@ haye321 : 예, 실제 문제를 조사 할 시간을 거의주지 못했기 때문에 사용중인 라이브러리가 작업에 적합하지 않습니다. –