stop-words

    0

    1답변

    모든 인덱스에서 액세스 할 수있는 방식으로 사용자 지정 스톱 워드 목록을 전역으로 정의하는 방법은 무엇입니까? 단지 우리가 미리 정의 된 언어 별 중지 단어 목록을 사용하는 방식처럼이 스톱 워드리스트를 사용하는 것이 이상적 일 것이다 : PUT /my_index { "settings": { "analysis": { "fil

    0

    1답변

    완전히 인덱싱 된 필드에서 'x ++'단어를 인덱싱하려고하는데 어떻게해야할지 모르겠다. 문제는 '+'문자가 색인 생성 문자에 포함되지 않는다고 생각합니다. 쿼리를 실행 : SELECT * FROM sys.dm_fts_index_keywords(DB_ID('my_db'), OBJECT_ID('my_table')) 내가 일 'C++'는 인덱싱 것으로 나타났

    2

    1답변

    아래의 코드를 사용하여 단어가 정지 단어인지 확인합니다. 아래에서 볼 수 있듯이 try 블록이 실패하면 IS_STOP 함수가 오류를 던지고 있습니다. 5 print 0/0 6 except: ----> 7 print spacy.load('en').is_stop('is') AttributeError: 'English' object has n

    4

    1답변

    나는 문서 번호와 인덱스 필드가있는 Solr 인스턴스가있다. 는 이제 완전히 단어는 불용어 목록에 포함 된 쿼리시에을 무시함으로써, 증가 결과의 수에 쿼리에 불용어 목록 을 적용 할. 따라서 제 설정에서 query 분석기에 solr.StopFilterFactory을 사용하고 있습니다. 스톱 워드 목록에있는 단어 하나만 사용하여 검색을 수행하면 전체 문서 집

    0

    1답변

    문자열 열이있는 테이블이 있습니다. 정지 단어를 제거하고 싶습니다. 내가 좋아 보이는이 쿼리를 사용했습니다. SELECT to_tsvector('english',colName)from tblName order by colName asc; 내가이 정지 PostgreSQL을의 단어와 어떤 경우에 쿼리 found.Then 내가 내 자신의 파일로 교체 할 수

    -1

    1답변

    파일에서 정지 단어를 제거하는 구문 분석기 또는 스크립트를 찾고 있습니다. 이 샘플 파일입니다 entities_0_confidence|entities_0_name|entities_0_entity|entities_1_confidence|relation_relation| -1.1956528741743269|ellen brown|Ellen_Brown|-3.91

    1

    1답변

    문자열 열이있는 테이블이 있습니다. 나는 문자열에서 중지 단어를 제거하고, 결과는 'would':2 'yellow':4 내가이 시세 및 제거 할 (어떻게 든 @IMSoP가 다른 경우에 어떤 제안이 link에 연결하는) 같이 : 및 숫자 . 나는 UPDATE tblName SET colName= replace(colName, '\s?[a-zA-Z]\w:\

    9

    2답변

    spacy로 정지 단어를 추가/제거하는 가장 좋은 방법은 무엇입니까? token.is_stop 기능을 사용 중이고 설정 변경에 대한 커스텀 변경을 원합니다. 나는 doccumentation를보고 있었지만 멈추는 단어에 관해서는 아무것도 찾을 수 없었다. 감사!

    3

    1답변

    주제 모델링을 수행하기 전에 정지 단어를 제거하려고합니다. 나는 어떤 부정 단어 (not, nor, never, none ... 등)가 일반적으로 정지 단어로 간주된다는 것을 알아 차렸다. 예를 들어, NLTK, spacy 및 sklearn은 정지 단어 목록에 "not"를 포함합니다. 그러나 아래의 문장에서 "not"를 제거하면 중요한 의미를 잃어 버리고

    4

    1답변

    데이터에서 스톱 워드를 제거하고 싶지만 정확한 단어가 중요하기 때문에 단어를 줄이고 싶지는 않습니다. 이 쿼리를 사용했습니다. SELECT to_tsvector('english',colName)from tblName order by lower asc; 단어를 파생시키지 않고 stopWords를 제거 할 수있는 방법이 있습니까? 감사