2017-11-17 4 views
0

그래서 내가 여기에 표시하는 HTML SNIPPIT에서 일부 텍스트를 추출하는 Jsoup을 사용했다. 여기 자바의 String이 텍스트 저장 (? BHI 금융)하지만 돌려 왼쪽 및 오른쪽 따옴표 문자

Element firstEntry = row.select("td").first(); 
String toAdd = firstEntry.select("font").text(); 

문자열 TOADD이 BHI 금융 LLC로 인쇄됩니다를

두 개의 물음표 문자를 int로 캐스트 147과 148입니다 각각은 (특정?) html char 인코딩에 대해 왼쪽 및 오른쪽 인용 부호로 나타났습니다. 제 질문은 어떻게하면 Jsoup가 왼쪽 및 오른쪽 인용 부호를 단지 정규 아스키 인용 부호로 파싱 할 수 있느냐입니다.

답변

0

구문 분석 문제로 보이지 않습니다. 파스 된 내용을 표시하는 데 사용하는 모든 것이 해당 문자를 올바르게 표시하지 않을 가능성이 큽니다.

가장 쉬운은 단지 그들을 대체 할 아마도 :

toAdd = toAdd.replaceAll("[“”]", "\""); 
+0

안녕! 그래서 System.out.println (toAdd)을 사용하고 있으며 이것을 시도했지만 작동하지 않았습니다. 여전히 문자 코드 147 및 148 (표준 ascii에는 실제로 존재하지 않습니다) – Mancer