n-gram

1열

1답변

solr에서 어떤 종류의 검색이 더 나은지 (성능면에서)? EdgeNGram 또는 와일드 카드 검색으로 자동 완성 하시겠습니까?

각 행에 4 개의 필드가있는 약 40k 행의 데이터 세트가 있습니다. 이제 텍스트 상자에있는이 4 개의 필드에 대한 자동 완성 메커니즘을 사용하고 싶습니다. 제안을 표시하기 전에이 4 개의 필드의 값을 하나의 문자열로 연결해야합니다. 어떤 종류의 쿼리를 확장하고 더 잘 수행 할 수 있습니까? 간단한 텍스트 색인에서 EdgeNGrams 또는 와일드 카드 검색

3열

3답변

Witten Bell Smoothing을 사용하여 NgramModel로 bigram/trigram 분포를 연습하고 평가하기

보이지 않는 ngram을 추정하기 위해 Witten-Bell 스무딩을 사용하여 한 세트의 문장에 NgramModel을 훈련하고 싶습니다. 그 분포에 의해 생성 된 테스트 세트의 로그 가능성 (log-likelihood). 여기에있는 문서 예제에서와 똑같은 작업을하고 싶습니다 : http://nltk.org/_modules/nltk/model/ngram.ht

5열

1답변

Naive Bayes 분류자를 가진 n 그램

Im 새로운 python에 도움이 필요합니다! 파이썬 NLTK 텍스트 분류로 연습하고있었습니다. 여기 내가이 일 from nltk import bigrams from nltk.probability import ELEProbDist, FreqDist from nltk import NaiveBayesClassifier from collections imp

0열

2답변

Java Lucene Ngrams

Lucene API를 사용하여 문장에서 ngrams를 추출하고 싶습니다. 그러나 나는 특이한 문제를 겪고있는 것처럼 보인다. JavaDoc에는 NGramTokenizer라는 클래스가 있습니다. 3.6.1 및 4.0 API를 모두 다운로드했으며이 클래스의 흔적을 볼 수 없습니다. NGramTokenizer 경로 org.apache.lucene.analysis

2열

2답변

대용량 파일에서 n-gram 주파수 액세스하기

저는 자연어 처리와 자바 프로그래밍에 새로운 것을 알고 있습니다. ngrams 및 관련 주파수 (aaprox, 250MB)가 포함 된 매우 큰 텍스트 파일이 있습니다. 프로그램 런타임에 ngram이 주어지면 주파수 값을 얻어야합니다. N- 그램 주파수가 파일에 다음과 같은 (예를 전용) 제공됩니다 the quick 445 quick brown 458 b

3열

1답변

Solr의 n-gram 필터에서 짧은 단어를 보호 할 수 있습니까?

Solr에서 짧은 단어 검색을 대략 this question 발견했습니다. 유사한 문제에 또 다른 가능한 해결책이 있는지 궁금합니다. 나는 MinGramSize가 3 인 EdgeNGramFilter를 사용하고 있습니다. 짧은 단어 (주로 두 글자의 두문자어)의 특정 집합을 무시하는 것을 막고 싶지만, 그 밖의 모든 것에 대해서는 minGramSize를 유지

12열

4답변

Java Lucene NGramTokenizer

문자열을 ngrams로 토큰 화하려고합니다. 이상하게도 NGramTokenizer에 대한 문서에서 토큰 화 된 개별 ngram을 리턴하는 메소드가 표시되지 않습니다. 사실 String 객체를 반환하는 NGramTokenizer 클래스에는 두 가지 메소드 만 있습니다. Reader reader = new StringReader("This is a test s

1열

1답변

변경된 필드, 지금은 텍스트 필드 내 스키마 매핑을 업데이트

어떤 결과를 반환하지 :이 작업을 수행 한 후, <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <tokenizer class="solr.KeywordTokenizerFactory"/>

1열

1답변

Python NLTK NGrams 오류

나는 텍스트 코퍼스에서 ngrams의 숫자를 얻기 위해 코드를 실행하고 있습니다. 나는 이것이 얻기 위해 실행하고 C:\Users\Rosenkrantz\Documents\NetBeansProjects\JavaApplication2>python ai7.py C:\Users\Rosenkrantz\Documents\NetBeansProjects\JavaAppl

15열

3답변

python nltk에서 n-gram 빈도를 계산합니다.

다음 코드가 있습니다. 나는 apply_freq_filter 함수를 사용하여 빈도 수가 적은 배열을 필터링 할 수 있다는 것을 알고 있습니다. 그러나 필터링을 위해 설정할 빈도를 결정하기 전에 문서에서 모든 n-gram 튜플의 주파수를 얻는 방법을 모르겠습니다. 보시다시피 nltk collocations 클래스를 사용하고 있습니다. import nltk