stemming

2열

1답변

Hunspell 부착 조건 정규식 형식입니다. 시작과 일치하는 방법은 없나요?

안녕하세요. 내 응용 프로그램에서 형태소 분석기로 Hunspell을 사용하려고합니다. 나는 포터와 눈싸움이 "abus", "exampl"같은 "chopped"단어 결과 때문에 형태가 바뀌는 것을 좋아하지 않습니다. Lemmatizing은 좋은 대안으로 보이지만 좋은 CoreNLP 대안을 모릅니다. 프로젝트의 소스 코드를 Java로 포팅하거나 브리지를 아직

0열

1답변

elasticsearch 매핑을 사용하여 복수형과 단수형을 모두 찾는 방법은 무엇입니까?

나는 속성에 대한 저장된 값이 shoes하고 필드에 대한 분석은 눈덩이이며,이 모든 것이 내가 shoes 검색하고 때를 찾을 수없는 ES에도 불구하고 버전 1.2.1을 elasticsearch 사용하고 있습니다. 이것은 내 매핑 { "query": { "filtered": { "query": { "match_all":

-2열

1답변

keywordTokenizer 및 형태소 분석 필터를 사용하는 입력란에서 정확한 검색을 수행하는 방법

나는 줄기가있는 입력란에 정확히 일치하는 것을 원합니다. "직장에서 베이비 시터를" <fieldType name="string_ci_stem" class="solr.TextField" sortMissingLast="true" omitNorms="true"> <analyzer type="index"> <tokenizer class="s

0열

1답변

스템 comparsion 알고리즘

나는 폴란드어에 대한 단어의 어긋남을 만드는 프로그램을 작성 중입니다. 이 언어에서 줄기는 어떤 경우에 (구개음 화 또는 이동성/순간적 전자 및 기타 효과로 인해) 다를 수 있습니다. 예를 들어 "karzeł"이라는 단어가 있으며 단어의 기본 사전 형식입니다. 그것은 줄기도 'karzeł'입니다. 그러나이 단어의 genitive 형태는 "karła"이고 줄

1열

1답변

자바에서 텍스트 줄기를 자르십시오.

자바에서 줄무늬 문자열을 검색하고 있습니다. 처음에는 lucene으로 해보고 싶었지만 웹상에있는 모든 예제 은 사용되지 않습니다. (SnowballAnalyzer, PorterStemmer, ...) 나는 전체 문장의 줄임말을 원합니다. public static String stemSentence(String sentence) { ...

0열

1답변

MongoDB에 따른 텍스트

내가 실제로 막아야 단어를 얻을 수 있습니다 예 또는 명령을 찾을 수 없어 여기 https://blog.codecentric.de/en/2013/01/text-search-mongodb-stemming/ 설명 된대로 내가의 mongodbs 내장 형태소 분석기 눈덩이 프로젝트에 사용에 찾고 . Ex. 포함하는 기록 {TXT를 : "나는 시간을 기다렸다"}이

2열

1답변

FastVectorHighlighter 구문 강조 표시가 형태소 분석과 작동하지 않음

줄기와 원래 단어를 모두 저장하는 줄무늬 표기를 쓰려고하면 FastVectorHighlighter을 사용하여 강조 표시 할 때 문제가 발생합니다. 입력 문자열은 foo bar baz이고 ba은 줄기가 bar입니다. 이미지 분석을 을 보여 아래 구문 검색은 hl.bs.type=WORD가 boundayScanner에 의해 사용되는 모든 http://localh

1열

1답변

다국어 탄성 검색 인덱스

여러 언어로 문서를 색인화하고 있습니다. 알고있는 한 _analyzer 매핑을 사용하여 문서 필드 중 하나에서 색인 타임에 각 문서에 사용할 분석기를 지정할 수 있습니다. 는 본질적으로 http://www.elasticsearch.org/guide/reference/mapping/analyzer-field.html , 프랑스 문서 동안은 언어 필드가 "프랑

1열

1답변

왜 형벌 후 비겁하게 겁쟁이가 되는가?

나는 Porter stemming (NLTK 라이브러리에서)을 적용한 후에 "cowardli" 또는 "contrari"과 같은 이상한 줄기를 발견했다. 나에게는 줄기처럼 보이지 않는다. 괜찮습니까? 제가 실수를 저질렀을 수도 있습니까? 여기 내 코드입니다 : string = string.lower() tokenized = nltk.tokenize.rege

2열

1답변

stemDocument R 텍스트 마이닝

내 데이터를 txt 파일이며 다음과 같습니다 overwiew 1 클라이언트 1 저장 한 마지 1 가격이 재고 2 개 경제 2 단어 number_doc 문서의 번호가 정렬됩니다 (가장 작은 것부터 가장 큰 것까지). 이제는 각 문서에 대해 문서에 속한 모든 단어를 원합니다. 이제 그들은 컬럼에 서 있지만, 나는 그 패키지의 일부 기능을 위해 필요하기 때문에