text-analysis

3열

3답변

텍스트 목록 및 특정 주제에 관심이있는 사람이 있으면 주어진 사람에게 가장 관련성이 높은 텍스트를 선택하는 알고리즘은 무엇입니까? 나는 이것이 매우 복잡한 주제라고 생각하고 대답으로 나는 몇 가지 방향이 가 검색으로 당신에게

1열

2답변

분류 된 정서 데이터의 출처?

이전에 사용되지 않은 새로운 데이터 소스로 순진한 베이 즈 (Bayes)를 훈련시키고 싶습니다. 이미 Lee & IMDB 리뷰의 Pang 코퍼스와 MPQA 의견 코퍼스를 살펴 보았습니다. 다음 기준에 맞는 새로운 웹 서비스를 찾고 있습니다. 쉽게 분류 - 유사한/혐오 또는 쉽게 사용할 수 5 성급 호텔로서 새로운 물질에 관련된 여기 (처음 두보다 중요한)가

0열

1답변

키를 누를 때 키워드 찾기

텍스트 분석기의 .net 구현을 찾고 있습니다. 텍스트 분석은 각 문자가 입력 된 후에 이루어져야합니다. 분석기는 몇 개의 핵심 문구를 저장할 수 있어야하고 문구 중 하나가 입력 될 때마다 이벤트를 발생시킬 수 있어야합니다. 예를 들어 검색된 구문이 "Hello world"인 경우 분석기는 'd'가 입력 된 직후 "123Hello world"에서 이벤트를

0열

1답변

필드 수를 늘리지 않고 lucene을 사용한 정확한 구문 검색

구문 검색의 경우 정확히 일치하는 경우 (즉, 불용어 무시 제외)에만 결과를 표시하려고합니다. 문구가 아닌 검색 인 경우 단어의 루트 형태와 일치하는 경우에도 결과를 표시 할 수 있습니다. Google은 현재 standardTokenizer, StopFilter, PorterStemFilter 및 LowerCaseFilter를 통해 데이터를 전달합니다. 이

1열

1답변

Stanford Topic Modeling Toolbox가 lda 출력 디렉토리를 생성하지 않는 이유는 무엇입니까?

Sarah Palin의 14,500 개의 이메일에서 30 개 항목을 식별하는 code from github (1-2-3 단계 다음)을 실행하려고했습니다. 저자가 발견 한 주제는 here입니다. 그러나 Stanford Topic Modeling Toolbox는 나를 위해 lda-output 디렉토리를 생성하지 않습니다. 그것은 lda-86a58136-30-2

1열

1답변

Ruby에서 간단한 키워드/핵심 구문 분석

특정 해시 태그가 포함 된 트윗 내에서 인기있는 키워드 또는 어구의 간단한 목록을 만들고 싶습니다. 예를 들어, '#justinbieber'해시 태그가있는 모든 트윗에 대해 'tw와 같은 일반 무관계를 무시하고 가장 많이 사용되는 상위 10 개 단어 및/또는 문구 목록을 얻고 싶습니다. ','the '등이 될 수 있습니다. 텍스트 분석을 수행하는 데 사용할

4열

1답변

주어진 텍스트에서 태그 (키워드)를 자동으로 식별하는 방법은 무엇입니까?

Firefox의 경우에는 Delicious toolbar처럼 동작해야합니다. 가능한 태그를 클릭하여 나열합니다. 효과는 다음과 같습니다 코드는 텍스트의 핵심 단어를 찾을 수 있어야합니다. 좋은 알고리즘이나 오픈 소스 프로젝트를 추천할까요? 나는 this post을 찾았지만, 내 구체적인 필요성에는 너무 일반적입니다. 나는 당신이 대답 중 하나를 찾고 생각

0열

1답변

Lucene의 SpanNearQuery에서 일치하는 단어를 가져옵니다.

SpanNearQuery.getSpans()에서 반환 한 Span과 일치하는 단어를 검색해야합니다. 예를 들어, 필자의 텍스트가 [a b c d e f]이고 'b'와 'e'(그리고 충분한 슬롭)라는 쿼리를 사용하여 SpanNearQueries를 사용하면 텍스트에 'b c d e'라는 문자가 표시됩니다. 자, 어떻게 단어를 검색 할 때 가장 효율적으로 단어를

2열

3답변

제목에 중요 단어 가져 오기 java library

주어진 텍스트 (제목)를 사용하여 중요한 단어 모음을 가져 오는 자바 라이브러리가 있습니까? EDITED : 중요한 의미는 문장의 주요 아이디어를 정의한 단어입니다. 감사합니다.

7열

1답변

사전 검색을 피하는 효율적인 Lemmatizer

'먹는 것', '먹는 것'과 같은 문자열로 변환하고 싶습니다. 검색으로 lemmatization을 솔루션으로 찾았지만 필자가 만났던 모든 lemmatizer 도구는 단어 목록이나 사전 검색을 사용합니다. 사전 검색을 피하고 고효율을 제공하는 임의 표기법이 있습니까? 규칙을 기반으로하는 표기법이 될 수 있습니다. 예, 저는 "줄기"를 찾지 않습니다.