n-gram

0열

1답변

매개 변수 번호의 관점에서 Autoencoder 및 Neural Network Overfitting?

나는 두 클래스에 대해 1100 개의 시퀀스를 가지고 있습니다. 그 중 400은 class 1이고 700은 class 2입니다. 나는 2 뉴런의 숨겨진 레이어 자동 엔코더를 사용하여 내 기능을 캡처했습니다. 나의 초기 특징은 각 시퀀스에 대한 3 그램이다. 그래서 각 시퀀스마다 나는 6860 트라이 그램을 가지고 있습니다. 결과적으로 대부분의 입력 벡터는

1열

1답변

Ngram Tokenizer on field, 쿼리가 아닌

여기에서 유스 케이스에 대한 솔루션을 찾는 데 문제가 있습니다. 기본적으로 매우 간단합니다. SQL like '%...%'처럼 "contains"쿼리를 수행해야합니다. 정규식 쿼리가 있는데, 실제로 완벽하게 작동하지만, 규모가 심한 것처럼 보이기 때문에 nGrams를 사용해 보았습니다. 지금, 나는 그들과 함께 놀았고 "어떻게 작동하는지"알았지 만, 그 행

1열

1답변

간단한 이진 텍스트 분류

정의 된 개념적 공간 (여기서는 learning as it relates to work)과 관련하여 800k + 학술 논문을 관련성이 있거나 관련성이없는 (0) 것으로 분류하는 가장 효과적이고 간단한 방법을 찾습니다. 데이터는 다음과 같습니다 제목 & 추상적 인은 (= 1300 개 문자를 의미) 어떤 접근 방식들, 및/또는 포함에 대한 몇 가지 임계 값을

0열

1답변

동일한 분류 프로그램에서 여러 Ngram을 사용할 수 있습니까?

NLP를 처음 접했고 많은 질문을받을 것으로 예상되는 매우 간단한 질문이 있지만 솔직히 아무데도 찾을 수 없었습니다. 동일한 분류 자 (예 : unigrams + bigrams)에서 여러 유형의 ngram을 사용할 수 있습니까? 저는 Naive Bayes의 경우 적어도 bigrams보다 더 높은 정확도를 제공하지만 (unigrams보다 낮지 만) 합법적

1열

1답변

검색 패턴의 최소 문자 이상 ngram을 사용하여 텍스트 내에서 검색

나는 탄력 서버에 텍스트 색인을 가지고 있습니다. 나는이 같은 N- 그램 토크 나이를 구현 한 : "analysis": { "analyzer": { "ngram_analyzer": { "type": "custom", "tokenizer": "ngram_tokenizer" } },

0열

1답변

arff 파일에서 n-gram 기능을 표현하는 방법은 무엇입니까?

그물에서이 문제를 조사해 왔지만 해결책을 찾지 못했습니다. 문제가 있다는 것입니다 : 자바 내가 먼저 사용 웨카 API는 내가 예시 할 수 중 하나 N 그램의 특징을 추출하는 문제는 여기에서 시작 "not good" 경우 : arff 파일의 헤더는 같은 것 이 : @relation words @attribute {0,1} not good 하지만 파

1열

1답변

n-gram 기능을 줄이는 방법은 무엇입니까?

나는 텍스트 처리의 문제를 다루었 다. 아무도 나를 도울 수 있다면 고맙겠습니다. 12,000 개의 기록이있는 데이터 세트가 있습니다. 이 경우 n-gram 추출기를 실행하면 170,000 개의 고유 한 unigram + bigram을 얻을 수 있습니다.이 알고리즘은 기계 학습 알고리즘에서 처리하는 데 너무 오래 걸립니다. 추출한 기능의 수를 어떻게 줄여야

0열

1답변

정규식을 사용하여 숫자로 시작하는 Google 도서에서 Unigram을 생성하십시오.

아래 코드는 Google 도서의 unigrams 피클 사전을 생성합니다. a, b, c, ..., z로 시작하는 단어 사전과 같은 26 개의 사전을 생성합니다. 나는이 숫자로 시작하는 단어의 사전을 가지고 그것을 변경할 {'word':[total_match_count, total_volume_count]}처럼 p = re.compile(r'^[a-z]*$'

0열

1답변

탄성 검색 Java API 토큰에 다중 일치 쿼리 접두사 쿼리

Elastic java api에서 NativeSearchQueryBuilder를 사용하여 내 인덱스에서 검색을 수행하려는 몇 가지 방법을 찾고 있는데 검색 중에 다음 사항을 추가하려고합니다. 인덱스 세부 정보 : 필터 유형 EdgeNgram 공백 토크 나이 내가 지금 여기에 자동 완성 기능을 찾고 있어요 나는 여러 필드에 검색 키워드를 적용 할하지만에 접두

0열

1답변

4 개 그램 모델에 Keras 단어 임베딩

나는 coursera 신경망 클래스를 따르고 있으며 옥타브 대신 파이썬 + 케라를 사용하여 과제를 전달하려고합니다. 이전 세 개를 주어진 네 번째 단어를 예측하고 싶습니다. 내 입력 문서는 총 250 개의 고유 단어입니다. 모델에는 각 단어를 50-d 벡터 공간, Sigmoid 활성화 기능이있는 200 개의 뉴런이있는 숨겨진 레이어 및 네 번째 단어의 확률