quanteda

0열

1답변

문서 기능 매트릭스 (dfm)에서 ngram 기능을 예를 들어 다음과 같은 방식으로 분리 할 수 있는지 궁금했습니다. bigram은 두 개의 분리 된 unigram을 생성합니까? head(dfm, n = 3, nfeature = 4) docs in_the great plenary emission_reduction 10752099 3 1

2열

1답변

문자로 된 dfm을 생성합니다.

문자열에서 dfm 문자를 생성하려고합니다. dfm이 선택할 수없는 문제는 "/" "-" "같은 구두점의 기능을 만들 수 있습니다." 또는 '. 대한 require(quanteda) dict = c('a','b','c','d','e','f','/',".",'-',"'") dict <- quanteda::dictionary(sapply(dict, list)

1열

1답변

R : QuantC 패키지의 removeCommonTerms?

removeCommonTerms 기능은 removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), is.numeric(pct), pct > 0, pct < 1) m <- if (inheri

0열

1답변

R : 두 개의 Quanteda DFM 스파 스 행렬의 행렬 곱셈에 의해 주어진 빈 dgCMatrix를 초기화 하시겠습니까?

내가 더미 바르와 솔루션 here을 구현하기 위해 노력하고,이 같은 루프가이 aaa <- DFM %*% t(DFM) #DFM is Quanteda dfm-sparse-matrix for(i in 1:nrow(aaa)) aaa[i,] <- aaa[i,][order(aaa[i,], decreasing = TRUE)] 하지만 지금 for(i in 1:nro

0열

1답변

Quanteda - 문서 변수에 대해 DFM에 함수 적용

R의 quanteda 패키지와 최신 버전의 R 및 패키지를 사용하고 있습니다. 수백만 건의 문서 자료가 있습니다. 각 문서에 날짜의 docvar가있는 quantuma에서 DFM을 생성했다고 가정 해 보겠습니다. 주어진 날에 수천 건의 문서가 생성되었지만 하루에 문서에 적용된 DFM을 얻고 싶습니다. (그래서 나는 각 단어의 총 단어 수를 일별로 계산합니다)

2열

1답변

QUANTEDA - 클래스 "dfmSparse"클래스가 유효하지 않습니다.

1열

1답변

r에 quanteda 오류가 predict.textmodel_NB_fitted :

이 코드로 quanteda NB에서 감정 분석을 예측하기 위해 노력하고있어 구현되지 : library(quanteda) X_train <-c("I love this sandwich.", "This is an amazing place!", "I feel very good about these beers.", "This

1열

1답변

문서 유사도 자기 표출

나는 100 명의 저자가 수천 명의 작은 문서를 가지고 있습니다. quanteda 패키지를 사용하여 필자는 작성자 간의 코사인 유사도를 계산했습니다. 예를 들어, 저자 x는 100 개의 텍스트를 가지고 있으므로 100 x 100 매트릭스의 유사성이 있습니다. 저자 y는 50 개의 텍스트를 가지고 있으므로 50 x 50 유사도 매트릭스를 제안했습니다. 이제이

1열

1답변

벡터로 데이터 프레임 변경하기

textstat_frequency{package:quanteda} 이라는 함수는 다음과 같은 데이터 프레임을 제공한다고합니다. data.frame(xx=1:4,yy=5:8,foo=c("A","A","B","C"),stringsAsFactors=FALSE) xx yy foo 1 1 5 A 2 2 6 A 3 3 7 B 4 4 8 C 는 벡터

1열

2답변

나는 문서의 특정 용어뿐만 아니라 (말씀으로) 평균 근접에 단어의 근접도를 계산하는 방법을 알아 내려고 노력하고 문서

의 특정 용어에 단어의 근접을 계산하는 방법. 나는 비슷한 질문이 있다는 것을 알고 있지만, 필요한 답을 나에게 줄뿐만 아니라 도움이되는 곳을 알려주는 것도 없다. 그래서 나는 다음과 같은 텍스트가 있다고 가정하자 : 나는 15 내에 표시 어떤 단어를 볼 수 있도록하려면 song <- "Far over the misty mountains cold To du