text-parsing

12열

6답변

AWK를 사용할 수 있지만 Windows 상자에 있습니다. AWK가없는 다른 사람들을 위해 함수를 만들고 있습니다. 또한 C 프로그램을 작성할 수 있다는 것을 알고 있지만, 내가 만드는 Vim 유틸리티를 유지 관리하고 컴파일해야 할 필요가 없다는 것을 알고 있습니다. 원본 파일은 THE DAY WAS LONG THE WAY WAS FAST 수 있습니다

12열

3답변

Ruby에서이 문자열을 토큰 화하는 방법은 무엇입니까?

나는이 문자열이 있습니다 %{Children^10 Health "sanitation management"^5} 을 그리고 해시의 배열로를 토큰 화를 변환 할 : [{:keywords=>"children", :boost=>10}, {:keywords=>"health", :boost=>nil}, {:keywords=>"sanitation management

1열

1답변

정규 표현식과 XSS의 "전쟁"

저는 포럼이나 블로그 같은 웹 소프트웨어를 작성하는 데 항상 관심이있었습니다. HTML로 다시 작성하기 위해 제한된 마크 업을 사용하는 것입니다. 하지만 최근에는 PHP에 대해 "PHP BBCode 파서 -PEAR"로 인터넷 검색을 시도해 보았습니다. 비효율적 인 혼란을 겪었거나 XSS 구멍이있는 코드가 여기 저기에 나옵니다. 가난한 BBCode 파서의 앞

0열

4답변

내 SQL 문을 구문 분석하는 정규 표현식을 작성하도록 도와주세요.

정규 표현식을 사용하여 FROM codes WHERE FieldName='ContactMethod' and IsNull(Deactived,'') != 'T' 을 SELECT FieldDescription,FieldValue FROM codes WHERE FieldName='ContactMethod' and IsNull(Deactived,'')

4열

3답변

Python 구문 분석

RSS 2.0 피드의 제목 태그를 해당 피드의 각 항목에 대한 세 가지 변수로 구문 분석하려고합니다. 당신이 볼 수 있기 때문 내가 포함 feed = getfeed("http://www.tourfilter.com/dallas/rss/by_concert_date") for item in feed: print repr(item.title[0:-1])

5열

4답변

PDF OCR을 사용한 텍스트 추출 접근법

누구나 OCR 라이브러리와 Java를 사용하여 PDF에서 텍스트를 추출하려고 했습니까? 텍스트 추출을 위해 가장 신뢰할만한 라이브러리는 무엇입니까? 필자가 보았던 대부분의 접근법 (tesseract, GOCR)은 C 라이브러리로, 일부 JNI 코드가 작성되어야합니다. 저는 현재 버전 0.8.x에서 Apache 인큐베이터 프로젝트 인 pdfbox에 익숙하지만

0열

1답변

단락의 모든 자릿수를 합하는 방법 (셀의 텍스트)?

I는 엑셀 시트가 는 요구 '열'C '의 셀의 모든 숫자의 총합을 얻을 열에 대응하는 셀의 값을 넣어 여기 alt text http://i43.tinypic.com/wsnxci.jpg 이다 (아래 그림 참조) B '(나의 예에서는 - 1 + 0.25 + 0.25 + 1 = 2.5). 열 'C'의 값은 팀이 제공 한 입력 값을 기반으로 동적으로 변경 될 수

1열

5답변

일부 내용을 건너 뛰고 C#에서 텍스트 파일 구문 분석

제목과 본문이있는 텍스트 파일을 구문 분석하려고합니다. 이 파일의 제목에는 본문 섹션에 대한 줄 번호가 있습니다. 예를 들어 : SECTION_A 256 SECTION_B 344 SECTION_C 556 이 의미 SECTION_A이 사전에 헤딩하고 필요한 경우 섹션을 읽어을 구문 분석하는 가장 좋은 방법이 될 것입니다 무엇 라인 256에서 시작있다.

0열

3답변

텍스트 얼룩

누구든지 텍스트의 부정을 찾을 수있는 라이브러리 또는 소프트웨어를 알고 있습니까? 예를 들어, 1. Name 1, Comment 2. Name 2, Comment 3. Name 3 , Comment 5. Name 10, Comment 이 소프트웨어 또는 라이브러리가 먼저 유사 상품 찾기 것이라고 텍스트의 일부를 (많이 모두 압축 소프트웨어의 조