n-gram

    1

    1답변

    각 행에 4 개의 필드가있는 약 40k 행의 데이터 세트가 있습니다. 이제 텍스트 상자에있는이 4 개의 필드에 대한 자동 완성 메커니즘을 사용하고 싶습니다. 제안을 표시하기 전에이 4 개의 필드의 값을 하나의 문자열로 연결해야합니다. 어떤 종류의 쿼리를 확장하고 더 잘 수행 할 수 있습니까? 간단한 텍스트 색인에서 EdgeNGrams 또는 와일드 카드 검색

    3

    3답변

    보이지 않는 ngram을 추정하기 위해 Witten-Bell 스무딩을 사용하여 한 세트의 문장에 NgramModel을 훈련하고 싶습니다. 그 분포에 의해 생성 된 테스트 세트의 로그 가능성 (log-likelihood). 여기에있는 문서 예제에서와 똑같은 작업을하고 싶습니다 : http://nltk.org/_modules/nltk/model/ngram.ht

    5

    1답변

    Im 새로운 python에 도움이 필요합니다! 파이썬 NLTK 텍스트 분류로 연습하고있었습니다. 여기 내가이 일 from nltk import bigrams from nltk.probability import ELEProbDist, FreqDist from nltk import NaiveBayesClassifier from collections imp

    0

    2답변

    Lucene API를 사용하여 문장에서 ngrams를 추출하고 싶습니다. 그러나 나는 특이한 문제를 겪고있는 것처럼 보인다. JavaDoc에는 NGramTokenizer라는 클래스가 있습니다. 3.6.1 및 4.0 API를 모두 다운로드했으며이 클래스의 흔적을 볼 수 없습니다. NGramTokenizer 경로 org.apache.lucene.analysis

    2

    2답변

    저는 자연어 처리와 자바 프로그래밍에 새로운 것을 알고 있습니다. ngrams 및 관련 주파수 (aaprox, 250MB)가 포함 된 매우 큰 텍스트 파일이 있습니다. 프로그램 런타임에 ngram이 주어지면 주파수 값을 얻어야합니다. N- 그램 주파수가 파일에 다음과 같은 (예를 전용) 제공됩니다 the quick 445 quick brown 458 b

    3

    1답변

    Solr에서 짧은 단어 검색을 대략 this question 발견했습니다. 유사한 문제에 또 다른 가능한 해결책이 있는지 궁금합니다. 나는 MinGramSize가 3 인 EdgeNGramFilter를 사용하고 있습니다. 짧은 단어 (주로 두 글자의 두문자어)의 특정 집합을 무시하는 것을 막고 싶지만, 그 밖의 모든 것에 대해서는 minGramSize를 유지

    12

    4답변

    문자열을 ngrams로 토큰 화하려고합니다. 이상하게도 NGramTokenizer에 대한 문서에서 토큰 화 된 개별 ngram을 리턴하는 메소드가 표시되지 않습니다. 사실 String 객체를 반환하는 NGramTokenizer 클래스에는 두 가지 메소드 만 있습니다. Reader reader = new StringReader("This is a test s

    1

    1답변

    어떤 결과를 반환하지 :이 작업을 수행 한 후, <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <tokenizer class="solr.KeywordTokenizerFactory"/>

    1

    1답변

    나는 텍스트 코퍼스에서 ngrams의 숫자를 얻기 위해 코드를 실행하고 있습니다. 나는 이것이 얻기 위해 실행하고 C:\Users\Rosenkrantz\Documents\NetBeansProjects\JavaApplication2>python ai7.py C:\Users\Rosenkrantz\Documents\NetBeansProjects\JavaAppl

    15

    3답변

    다음 코드가 있습니다. 나는 apply_freq_filter 함수를 사용하여 빈도 수가 적은 배열을 필터링 할 수 있다는 것을 알고 있습니다. 그러나 필터링을 위해 설정할 빈도를 결정하기 전에 문서에서 모든 n-gram 튜플의 주파수를 얻는 방법을 모르겠습니다. 보시다시피 nltk collocations 클래스를 사용하고 있습니다. import nltk