quanteda

    0

    1답변

    문서 기능 매트릭스 (dfm)에서 ngram 기능을 예를 들어 다음과 같은 방식으로 분리 할 수 ​​있는지 궁금했습니다. bigram은 두 개의 분리 된 unigram을 생성합니까? head(dfm, n = 3, nfeature = 4) docs in_the great plenary emission_reduction 10752099 3 1

    2

    1답변

    문자열에서 dfm 문자를 생성하려고합니다. dfm이 선택할 수없는 문제는 "/" "-" "같은 구두점의 기능을 만들 수 있습니다." 또는 '. 대한 require(quanteda) dict = c('a','b','c','d','e','f','/',".",'-',"'") dict <- quanteda::dictionary(sapply(dict, list)

    1

    1답변

    removeCommonTerms 기능은 removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), is.numeric(pct), pct > 0, pct < 1) m <- if (inheri

    0

    1답변

    내가 더미 바르와 솔루션 here을 구현하기 위해 노력하고,이 같은 루프가이 aaa <- DFM %*% t(DFM) #DFM is Quanteda dfm-sparse-matrix for(i in 1:nrow(aaa)) aaa[i,] <- aaa[i,][order(aaa[i,], decreasing = TRUE)] 하지만 지금 for(i in 1:nro

    0

    1답변

    R의 quanteda 패키지와 최신 버전의 R 및 패키지를 사용하고 있습니다. 수백만 건의 문서 자료가 있습니다. 각 문서에 날짜의 docvar가있는 quantuma에서 DFM을 생성했다고 가정 해 보겠습니다. 주어진 날에 수천 건의 문서가 생성되었지만 하루에 문서에 적용된 DFM을 얻고 싶습니다. (그래서 나는 각 단어의 총 단어 수를 일별로 계산합니다)

    2

    1답변

    경고 메시지가 표시됩니다. https://github.com/kbenoit/quanteda/tree/master/data/data_char_inaugural.RData RStudio 버전 : 버전 1.0.136 - © 2009에서 2016 사이 RStudio, Inc.의 library(quanteda) uk2010immigCorpus <- corpus(d

    1

    1답변

    이 코드로 quanteda NB에서 감정 분석을 예측하기 위해 노력하고있어 구현되지 : library(quanteda) X_train <-c("I love this sandwich.", "This is an amazing place!", "I feel very good about these beers.", "This

    1

    1답변

    나는 100 명의 저자가 수천 명의 작은 문서를 가지고 있습니다. quanteda 패키지를 사용하여 필자는 작성자 간의 코사인 유사도를 계산했습니다. 예를 들어, 저자 x는 100 개의 텍스트를 가지고 있으므로 100 x 100 매트릭스의 유사성이 있습니다. 저자 y는 50 개의 텍스트를 가지고 있으므로 50 x 50 유사도 매트릭스를 제안했습니다. 이제이

    1

    1답변

    textstat_frequency{package:quanteda} 이라는 함수는 다음과 같은 데이터 프레임을 제공한다고합니다. data.frame(xx=1:4,yy=5:8,foo=c("A","A","B","C"),stringsAsFactors=FALSE) xx yy foo 1 1 5 A 2 2 6 A 3 3 7 B 4 4 8 C 는 벡터

    1

    2답변

    의 특정 용어에 단어의 근접을 계산하는 방법. 나는 비슷한 질문이 있다는 것을 알고 있지만, 필요한 답을 나에게 줄뿐만 아니라 도움이되는 곳을 알려주는 것도 없다. 그래서 나는 다음과 같은 텍스트가 있다고 가정하자 : 나는 15 내에 표시 어떤 단어를 볼 수 있도록하려면 song <- "Far over the misty mountains cold To du