n-gram

    0

    1답변

    나는 두 클래스에 대해 1100 개의 시퀀스를 가지고 있습니다. 그 중 400은 class 1이고 700은 class 2입니다. 나는 2 뉴런의 숨겨진 레이어 자동 엔코더를 사용하여 내 기능을 캡처했습니다. 나의 초기 특징은 각 시퀀스에 대한 3 그램이다. 그래서 각 시퀀스마다 나는 6860 트라이 그램을 가지고 있습니다. 결과적으로 대부분의 입력 벡터는

    1

    1답변

    여기에서 유스 케이스에 대한 솔루션을 찾는 데 문제가 있습니다. 기본적으로 매우 간단합니다. SQL like '%...%'처럼 "contains"쿼리를 수행해야합니다. 정규식 쿼리가 있는데, 실제로 완벽하게 작동하지만, 규모가 심한 것처럼 보이기 때문에 nGrams를 사용해 보았습니다. 지금, 나는 그들과 함께 놀았고 "어떻게 작동하는지"알았지 만, 그 행

    1

    1답변

    정의 된 개념적 공간 (여기서는 learning as it relates to work)과 관련하여 800k + 학술 논문을 관련성이 있거나 관련성이없는 (0) 것으로 분류하는 가장 효과적이고 간단한 방법을 찾습니다. 데이터는 다음과 같습니다 제목 & 추상적 인은 (= 1300 개 문자를 의미) 어떤 접근 방식들, 및/또는 포함에 대한 몇 가지 임계 값을

    0

    1답변

    NLP를 처음 접했고 많은 질문을받을 것으로 예상되는 매우 간단한 질문이 있지만 솔직히 아무데도 찾을 수 없었습니다. 동일한 분류 자 ​​(예 : unigrams + bigrams)에서 여러 유형의 ngram을 사용할 수 있습니까? 저는 Naive Bayes의 경우 적어도 bigrams보다 더 높은 정확도를 제공하지만 (unigrams보다 낮지 만) 합법적

    1

    1답변

    나는 탄력 서버에 텍스트 색인을 가지고 있습니다. 나는이 같은 N- 그램 토크 나이를 구현 한 : "analysis": { "analyzer": { "ngram_analyzer": { "type": "custom", "tokenizer": "ngram_tokenizer" } },

    0

    1답변

    그물에서이 문제를 조사해 왔지만 해결책을 찾지 못했습니다. 문제가 있다는 것입니다 : 자바 내가 먼저 사용 웨카 API는 내가 예시 할 수 중 하나 N 그램의 특징을 추출하는 문제는 여기에서 시작 "not good" 경우 : arff 파일의 헤더는 같은 것 이 : @relation words @attribute {0,1} not good 하지만 파

    1

    1답변

    나는 텍스트 처리의 문제를 다루었 다. 아무도 나를 도울 수 있다면 고맙겠습니다. 12,000 개의 기록이있는 데이터 세트가 있습니다. 이 경우 n-gram 추출기를 실행하면 170,000 개의 고유 한 unigram + bigram을 얻을 수 있습니다.이 알고리즘은 기계 학습 알고리즘에서 처리하는 데 너무 오래 걸립니다. 추출한 기능의 수를 어떻게 줄여야

    0

    1답변

    아래 코드는 Google 도서의 unigrams 피클 사전을 생성합니다. a, b, c, ..., z로 시작하는 단어 사전과 같은 26 개의 사전을 생성합니다. 나는이 숫자로 시작하는 단어의 사전을 가지고 그것을 변경할 {'word':[total_match_count, total_volume_count]}처럼 p = re.compile(r'^[a-z]*$'

    0

    1답변

    Elastic java api에서 NativeSearchQueryBuilder를 사용하여 내 인덱스에서 검색을 수행하려는 몇 가지 방법을 찾고 있는데 검색 중에 다음 사항을 추가하려고합니다. 인덱스 세부 정보 : 필터 유형 EdgeNgram 공백 토크 나이 내가 지금 여기에 자동 완성 기능을 찾고 있어요 나는 여러 필드에 검색 키워드를 적용 할하지만에 접두

    0

    1답변

    나는 coursera 신경망 클래스를 따르고 있으며 옥타브 대신 파이썬 + 케라를 사용하여 과제를 전달하려고합니다. 이전 세 개를 주어진 네 번째 단어를 예측하고 싶습니다. 내 입력 문서는 총 250 개의 고유 단어입니다. 모델에는 각 단어를 50-d 벡터 공간, Sigmoid 활성화 기능이있는 200 개의 뉴런이있는 숨겨진 레이어 및 네 번째 단어의 확률