text2vec

    1

    1답변

    나는 회귀/분류를 감독하기 위해 text2vec에 구현 된 GloVe 단어 임베딩을 사용하고 싶습니다. text2vec 홈페이지에서 단어 벡터를 생성하는 방법에 대한 유용한 자습서를 읽었습니다. 그러나, 나는 더 나아가는 방법을 파악하는 데 어려움을 겪고있다. 즉,이 단어 벡터를 적용하거나 변형하고 각 문서가 벡터로 표현되는 방식으로 각 문서에 첨부한다.

    0

    1답변

    같은 데이터 세트를 사용하여 text2vec에 tf-idf DTM과 n-gram 기반 DTM을 만들었습니다. 지금, 나는 따로 각각 glmnet을 실행할 수 있어요,하지만 난 cBind를 통해 이러한 2 DTMS를 결합 할 때, glmnet 나에게 오류 제공 : Error in validObject(.Object) :invalid class “dgCMatr

    0

    1답변

    library (text2vec) library (parallel) library (doParallel) N <- parallel::detectCores() cl <- makeCluster (N) registerDoParallel (cl) Ky_young <- read.csv("./Ky_young.csv") IT <- itoken_paral

    1

    1답변

    일부 텍스트 마이닝을 수행하기 위해 Oracle DB에서 일부 데이터를 추출합니다. 내 데이터가 UTF8이고 vocab에서 처리 할 수 ​​없습니다. library(text2vec); library(DBI); Sys.setenv(TZ="+03:00"); drv=dbDriver("Oracle"); con=dbConnect(drv,username="us

    0

    1답변

    오늘 text2vec 패키지가 나왔습니다. 특정 문제에 정확히 필요한 부분입니다. 그러나 text2vec로 만든 dtm을 일종의 출력 파일로 내보내는 방법을 알아낼 수 없었습니다. 내 궁극적 인 목표는 text2vec를 사용하여 R로 피쳐를 생성하고 결과 행렬을 추가 모델링을 위해 H2O로 가져 오는 것입니다. H2O는 CSV 또는 SVMLight 형식을

    0

    1답변

    text2vec 패키지에 prune_vocabulary을 적용한 후 코퍼스에 남아있는 문서의 수를 확인할 수 있습니까? 여기 는 term_count_min 및 doc_proportion_min 매개 변수 내 텍스트 말뭉치에있는 방법을 적극적으로 이해하는 쉬운 방법이 있나요에서 데이터 집합을 받고 치기 어휘 library(text2vec) library(d

    0

    1답변

    캐럿 패키지 [R]의 모델을 구현하고자했다 : https://cran.r-project.org/web/packages/text2vec/vignettes/text-vectorization.html#tf-idf 그래서, 분류는 다음과 같이 구현됩니다 : x와 y의 glmnet_classifier = cv.glmnet(x = dtm_train_tfidf, y =

    1

    1답변

    현재 LDP를 사용하여 text2vec 패키지에서 주제를 모델링하고 있습니다. 나는 dtm 행렬을 만들고 나서 과 fit_transform 메서드를 n_topics=50으로 적용했습니다. 각 주제의 상위 단어를 보면서 내 마음에 질문이 생겼습니다. 나중에 모델을 새로운 데이터에 적용 할 계획이며 이전 모델에서 발견하지 못했던 새로운 단어가 나타날 가능성이

    0

    1답변

    업계 용 특수 용어가 많이 포함 된 독점 텍스트 데이터 모음에서 사용자 정의 단어 삽입을 생성하기 위해 text2vec를 사용했습니다 (따라서 Google에서 제공하는 스톡 embeddings는 작동하지 않습니다). 유추는 훌륭하게 작동하지만 새로운 데이터를 평가하기 위해 삽입을 적용하는 데 어려움을 겪고 있습니다. 새로운 데이터에서 관계를 이해하기 위해

    0

    1답변

    dtm_train_tfidf 내가 희소 행렬을 수용하도록되어 기능 LiblineaR 사용하고 dgCMatrix CSC 형식 희소 행렬을 발생한다. 내가 스파 스 매트릭스 dtm_train_tfidf를 사용할 때, 다음과 같은 오류가 발생합니다 library(LiblineaR) LiblineaR(data=dtm_train_tfidf, target=tra