stop-words

    0

    2답변

    텍스트 분석을 사용하고 있습니다. 나는 문장을 세어야했다. 내 코드 : library(dplyr) library(tidytext) txt <- readLines("consolidado.txt",encoding="UTF-8") txt = iconv(txt, to="ASCII//TRANSLIT") text_df <- data_frame(line = 1:

    0

    1답변

    Solr로 검색하는 동안 문제가 있습니다. 일부 데이터의 색인을 생성 한 후 문서를 검색하려고합니다. coord_address 값 "48 후회 드 라 Frémondière" 내가 searchword 검색하는 경우에 : "48 후회 드 라 Fremondiere", 나는 결과를 가지고 searchword : "48이 문서에서 나는 필드의 이름이 rue de l

    2

    2답변

    이것은 Stop 단어를 제거하기위한 C# 프로그램이며 _delimiters에 오류가 있습니다. 하나만 도와주세요! 내가이 오류 와 아웃 풋은 고양이 말을보고해야 복구 할 수있는 방법을 는 구글은 귀하의 함수가 걸리는 모든 static class StopwordTool { static Dictionary<string, bool> _stop

    -1

    1답변

    스탠포드 NLP를 적용하는 동안 불용어 제거를 위해 아래 해결책을 사용하고 있습니다. https://github.com/jconwell/coreNlp 이 프로젝트는 내가 루씬의 latestfeatures을 활용하기 위해 5.5.2 루씬이 코드를 마이그레이션 할 필요가 루씬 (3.6.2) 의 이전 버전에 대한 종속성이 있습니다. 나는 아래의 클래스는 루씬에서

    2

    1답변

    안녕하세요 저는 프로그래밍하는 Python에 익숙하지 않아 디렉토리의 여러 파일에서 사용자 정의 중지 단어를 제거하는 데 도움이 필요합니다. 나는 거의 모든 관련 게시물을 온라인으로 읽었습니다! 내가 파이썬 2.7 여기 을 뒤져 하나의 두 개의 샘플 라인이 사용하고 이 형식을 유지하고 단지 행에서 스톱 단어를 제거하려면 : "8806" ; " 차드에서 시위

    -5

    1답변

    중괄호 제거를 원합니다. 약 15,000 개의 문자열로 구성된 목록이 있습니다. 그 문자열은 작은 텍스트입니다. h = [] for w in clean.split(): if w not in cachedStopWords: h.append(w) if w in cachedStopWords: h.append(" ") pr

    0

    1답변

    API 나 XML 파일로 Endeca Workbench 도구에 스톱 워드 및 리디렉션 정보와 같은 입력 데이터를 제공 할 수있는 방법을 찾지 못했습니다. 도움?

    -1

    1답변

    HashSet에 저장중인 파일에서 정지 단어를 읽습니다. 난 String로 HashSet을 말하면 정지 단어를 확인합니다. 나는 등 "은"의 String -variable에, 내 출력이 "예"와 같이, 하나의 중지 단어를 넣어합니다. 내가 좋아하는 뭔가를 넣어 경우, 또는 두 가지 모두 String -variables가 중지 단어가 포함되어 있다는 사실에도

    0

    1답변

    워드 클라우드를 만들기 전에 텍스트에서 영어 불용어를 제거하려고했지만 작동하지 않았습니다. 나는 여러 게시물을 읽고 행운이없이 제안 된 것을 시도했다. 어떤 도움을 주시면 감사하겠습니다. library(tm) library(wordcloud) library(RColorBrewer) library(SnowballC) textdata <- c(A se

    0

    1답변

    저는 python과 NLTK를 처음 사용합니다. 코퍼스에서 명사구를 추출한 다음 NLTK를 사용하여 중지 단어를 제거해야합니다. 이미 코딩을 했는데도 여전히 오류가 있습니다. 누구든지이 문제를 해결할 수 있습니까? 또는 더 나은 해결책이 있다면 추천하십시오. 당신에게 import nltk from nltk.tokenize import word_tokeni