tokenize

1열

1답변

우리는 elasticsearch에서 원래의 문자열과 동의어에 동등하게 점수를 매길 수 있습니까? 예 : 나는 동의어 토큰 필터를 사용하여 인덱스를 생성 제한 PVT, 개인 회사 : I는 내 동의어 파일을 만들었습니다. 나는 "ABC 국제 Pvt 주식 회사"가 점수 0.57과 1.15로 첫 번째 문서와 두 번째 문서를 검색 할 때 지금 curl -XPOST

0열

1답변

solr search - 두 단어 사이에있는 단어가 누락 된 경우 결과가 누락됩니다.

Solr로 검색하는 동안 문제가 있습니다. 일부 데이터의 색인을 생성 한 후 문서를 검색하려고합니다. coord_address 값 "48 후회 드 라 Frémondière" 내가 searchword 검색하는 경우에 : "48 후회 드 라 Fremondiere", 나는 결과를 가지고 searchword : "48이 문서에서 나는 필드의 이름이 rue de l

0열

1답변

팬더 : read_csv, 나는에서 elnino 데이터 집합을 읽을려고

겉으로는 일반 데이터에 대한 오류 토큰 화 데이터 : https://archive.ics.uci.edu/ml/machine-learning-databases/el_nino-mld/el_nino.data.html 그러나, 나는 '오류 tokeninzing 데이터'를 얻고있다. 워드 패드로 열면 데이터 자체가 다음과 같이 보입니다. 1 1 8.96 -140.3

0열

1답변

10 개의 레코드가있는 텍스트 파일에서 사용자 이름과 암호 읽기를 사용하여 java에 로그인하는 방법은 무엇입니까?

메시지에는 사용자가 작성한 로그인 시도 횟수도 표시되어야합니다. 사용자가 최대 시도 횟수에 도달하면 프로그램은 "시도 횟수 초과"라는 메시지 대화 상자가 표시되면서 종료됩니다. 프로그램 종결 ". 내 코드는 암호가 하나 뿐이며 텍스트 파일에 사용자 이름이 하나만 있으면 사용자 이름과 암호를 허용합니다. 텍스트 파일에있는 10 개의 데이터를 모두 스캔하는 방

-1열

1답변

파일 이름 추출을위한 패턴 토큰 화 도구

ElasticSearch의 a, a.b, a.b.c, b.c, b, c 부분에 "a.b.c"을 토큰 화하고 싶습니다. 내가 정규식을 시도했지만 tokenizer를 업데이 트 지루한이고 나는 정규식에 아주 좋지 않아 도움을 요청하고있어. 그것은 것 POST my_sample/_analyze { "analyzer": "my_analyzer",

1열

1답변

프로그래밍에서 동일한 줄에서 토큰을 가져 오십시오

R 프로그래밍을 사용하면 파일에서 토큰 ngram = 2를 가져와야합니다. 나는 처음 두가 문제는 라인을 결합한다는 것입니다, 일부 토큰은 라인의 끝과 다음 줄의 파일 작업에 Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2) 의 시작에 다른 부분 부분이 라인 : 위해 무엇

3열

1답변

R에서 단어를 토큰화할 때 영숫자가 아닌 기호를 유지하는 방법은 무엇입니까?

문자를 토큰 화하는 데 에 tokenizers 패키지를 사용하고 있지만 "@"또는 "&"과 같은 영숫자가 아닌 기호가 손실되어 계속 보관해야합니다. 내가 tokenize_character_shingles가 구두점을 유지 수있는 strip_non_alphanum 인수가 알고 tokenize_ngrams("My number & email address [ema

1열

2답변

구분을/토큰 화 단어에서 도트하지만 파이썬

의 자리에서이 나는 단어에서 독일어 문장에서 점을 분리하기 위해 노력하고있어하지만 숫자, 예로부터 : "Der 17. Januar war ein toller Tag. Heute ist es auch schön." 은 끝나야합니다 "Der 17. Januar war ein toller Tag . Heute ist es auch schön . " 하지만

0열

1답변

팬더와 spaCy를 사용하여 토큰 화하기

저는 첫 번째 파이썬 프로젝트에서 작업하고 있으며 합리적으로 큰 데이터 세트 (수천 개의 행 중 10 개)가 있습니다. 나는 5 개의 텍스트 열 ('셀'당 텍스트의 여러 문장)에 대해 nlp (클러스터링, 분류)를 수행하고 pandas를 사용하여 데이터 세트를 구성/구축했습니다. 모든 nlp에 spaCy를 사용하고 싶지만 내 열의 텍스트를 토큰 화하는 방법

0열

1답변

SQL Server 2008 이상에서 데이터 토큰 화

어떻게 열의 데이터를 토큰화할 수 있습니까? 즉, 데이터를 암호화하지만 크기 (길이)와 데이터를 그룹화 할 가능성을 유지하십시오. GDPR 목적으로 데이터를 익명화하는 더 정확하게 방법. 또한 실제 데이터를 표시 할 수 있도록 해독 방법이 필요합니다. 예를 들어 : 열 존 켄 로니 켄 켄 이 Column_Tokenized aK91 B1r 0jnaE B1r