tokenize

    1

    1답변

    우리는 elasticsearch에서 원래의 문자열과 동의어에 동등하게 점수를 매길 수 있습니까? 예 : 나는 동의어 토큰 필터를 사용하여 인덱스를 생성 제한 PVT, 개인 회사 : I는 내 동의어 파일을 만들었습니다. 나는 "ABC 국제 Pvt 주식 회사"가 점수 0.57과 1.15로 첫 번째 문서와 두 번째 문서를 검색 할 때 지금 curl -XPOST

    0

    1답변

    Solr로 검색하는 동안 문제가 있습니다. 일부 데이터의 색인을 생성 한 후 문서를 검색하려고합니다. coord_address 값 "48 후회 드 라 Frémondière" 내가 searchword 검색하는 경우에 : "48 후회 드 라 Fremondiere", 나는 결과를 가지고 searchword : "48이 문서에서 나는 필드의 이름이 rue de l

    0

    1답변

    겉으로는 일반 데이터에 대한 오류 토큰 화 데이터 : https://archive.ics.uci.edu/ml/machine-learning-databases/el_nino-mld/el_nino.data.html 그러나, 나는 '오류 tokeninzing 데이터'를 얻고있다. 워드 패드로 열면 데이터 자체가 다음과 같이 보입니다. 1 1 8.96 -140.3

    0

    1답변

    메시지에는 사용자가 작성한 로그인 시도 횟수도 표시되어야합니다. 사용자가 최대 시도 횟수에 도달하면 프로그램은 "시도 횟수 초과"라는 메시지 대화 상자가 표시되면서 종료됩니다. 프로그램 종결 ". 내 코드는 암호가 하나 뿐이며 텍스트 파일에 사용자 이름이 하나만 있으면 사용자 이름과 암호를 허용합니다. 텍스트 파일에있는 10 개의 데이터를 모두 스캔하는 방

    -1

    1답변

    ElasticSearch의 a, a.b, a.b.c, b.c, b, c 부분에 "a.b.c"을 토큰 화하고 싶습니다. 내가 정규식을 시도했지만 tokenizer를 업데이 트 지루한이고 나는 정규식에 아주 좋지 않아 도움을 요청하고있어. 그것은 것 POST my_sample/_analyze { "analyzer": "my_analyzer",

    1

    1답변

    R 프로그래밍을 사용하면 파일에서 토큰 ngram = 2를 가져와야합니다. 나는 처음 두가 문제는 라인을 결합한다는 것입니다, 일부 토큰은 라인의 끝과 다음 줄의 파일 작업에 Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2) 의 시작에 다른 부분 부분이 라인 : 위해 무엇

    3

    1답변

    문자를 토큰 화하는 데 에 tokenizers 패키지를 사용하고 있지만 "@"또는 "&"과 같은 영숫자가 아닌 기호가 손실되어 계속 보관해야합니다. 내가 tokenize_character_shingles가 구두점을 유지 수있는 strip_non_alphanum 인수가 알고 tokenize_ngrams("My number & email address [ema

    1

    2답변

    의 자리에서이 나는 단어에서 독일어 문장에서 점을 분리하기 위해 노력하고있어하지만 숫자, 예로부터 : "Der 17. Januar war ein toller Tag. Heute ist es auch schön." 은 끝나야합니다 "Der 17. Januar war ein toller Tag . Heute ist es auch schön . " 하지만

    0

    1답변

    저는 첫 번째 파이썬 프로젝트에서 작업하고 있으며 합리적으로 큰 데이터 세트 (수천 개의 행 중 10 개)가 있습니다. 나는 5 개의 텍스트 열 ('셀'당 텍스트의 여러 문장)에 대해 nlp (클러스터링, 분류)를 수행하고 pandas를 사용하여 데이터 세트를 구성/구축했습니다. 모든 nlp에 spaCy를 사용하고 싶지만 내 열의 텍스트를 토큰 화하는 방법

    0

    1답변

    어떻게 열의 데이터를 토큰화할 수 있습니까? 즉, 데이터를 암호화하지만 크기 (길이)와 데이터를 그룹화 할 가능성을 유지하십시오. GDPR 목적으로 데이터를 익명화하는 더 정확하게 방법. 또한 실제 데이터를 표시 할 수 있도록 해독 방법이 필요합니다. 예를 들어 : 열 존 켄 로니 켄 켄 이 Column_Tokenized aK91 B1r 0jnaE B1r