tokenize

    3

    1답변

    내 요구 사항은 쿼리에 대한 응답으로 자연어 문장 (영어)의 숫자 데이터를 인식하고 추출하는 것입니다. 플랫폼은 Java입니다. 예를 들어, 사용자 쿼리는 "에베레스트 산의 높이가 무엇"과 같이 우리는 단락이있는 경우 : 1856 년 은, 영국의 인도의 위대한 삼각 설문 조사는 에베레스트의 첫 번째 출판 높이를 설립 한 후로 알려진, 피크 XV, 29,00

    3

    2답변

    나는 자바에 대한 좋은 tokenizers에 대해 궁금합니다. 내 생각에별로 좋지 않은 StreamTokenizer 및 StringTokenizer와 같은 표준 라이브러리에 포함 된 것 이외에. 내가 아는 유일한 사람은 jTopas이며, 이는 우수합니다. 그럼 밖에 뭐가 있을까요? *** 제안에서 ANTLR을 제외 할 수 있습니다. 또한, 처음부터 하나를

    2

    1답변

    내가 원하는 것은 텍스트를 그의 궁극적 인 요소로 분리하는 것입니다. 예를 들어 는 : from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, pattern='(?:(?!\d)\w)+|\S+

    7

    1답변

    Lucene의 표준 분석기를 토큰 화하려면 어떻게해야합니까 '.' 숯? 예를 들어, "B"를 쿼리 할 때 결과로 "A.B.C"의 B를 반환해야합니다. 표준 분석기가 처리하는 방식으로 숫자를 처리해야하므로 간단한 분석기로는 충분하지 않습니다. 표준 분석기로 '토큰 화'를 지정할 수 있다면 완벽 할 것입니다. 숯 너무. 이 작은 확장자로 내 토크 나이저를 작성

    8

    3답변

    텍스트를 문장으로 분리해야합니다. 나는 현재 OpenNLP의 문장 탐지 도구로 놀고있다. 또한 NLTK 및 Stanford CoreNLP 도구에 대해서도 들었습니다. 가장 정확한 영어 문장 검색 도구는 무엇입니까? 너무 많은 NLP 기능이 필요하지 않습니다. 문장 분리/감지에 적합한 도구 일뿐입니다. 나는 Lucene에 대해서도 들었지만 ... 너무 많이

    0

    2답변

    jQuery 용 "Facebook style"또는 "tokenizing"autosuggest plugin을 찾고 있습니다. 제안 된 목록과 새로운 항목에서 여러 항목을 선택할 수 있습니다. 이 플러그인은 내가이 필요하지만, 그것은 보인다는 Mootools의를 필요로 정확히 수행합니다 http://devthought.com/projects/mootools/t

    1

    1답변

    배경 : 나는 약 1 년 동안 RoR을 해왔고 꽤 편안하다. 그러나 나는 자바에 대해 아무것도 모른다. 난 내 레일 애플 리케이션에서 몇 가지 jquery autocomplete 물건 놀아왔다. 나는 거의 버전이 작동하고 있었지만 one to many 관계를 위해서도 토큰 화 된 필드가 필요했다. 오른쪽 큐에 - 좋은 오래된 라이언 베이츠는 railscas

    0

    2답변

    간단한 언어 용 컴파일러를 작성하고 있습니다. 나는 파일을 취하고 토큰을 stdout에 인쇄하는 lexer/tokenizer를 만들었다. 이제는 구문 분석을하고 싶지만 토큰을 입력으로 사용하기 위해 렉서를 수정하는 방법을 모르겠습니다. 링크 된 목록은에서 가져가 호출 될 때 나는 다음 토큰마다 시간을 제공하기 위해 내 렉서를 수정할 수 큰 파일 (램의 1.

    2

    2답변

    그래서 TCP winsock 연결을 통해 수신되는 데이터의 다음 문자열이 있으며 구조체의 벡터로 고급 토큰 화를하고 싶습니다. 각 구조체는 하나의 레코드를 나타냅니다. std::string buf = "44:william:adama:commander:stuff\n33:luara:roslin:president:data\n" struct table_t {

    3

    2답변

    토큰 화해야하는 여러 텍스트 파일 (POS 및 NER)이 있습니다. C&C taggers를 사용하고 있으며 튜토리얼을 실행했지만 여러 파일을 하나씩 태그 지정하는 방법이 있는지 궁금합니다. bin/pos --input working/tutorial/example.tok --model models/pos --output working/tutorial/exam