n-gram

    0

    1답변

    단어 목록의 모든 단어가 대화에서 발견되는 횟수를 찾고 있습니다. 각 단어의 개별 빈도를 고려하지 않고 전체 카운트 만 고려합니다. 단어 목록은 uptill 3 from nltk.util import ngrams find = ['car', 'motor cycle', 'heavy traffic vehicle'] data = pd.read_csv('inpu

    0

    1답변

    min_gram : 3 max_gram : 10 ngram 분석기 (min_gram : 3 및 max_gram : 3)의 ngram 분석기를 사용하면 어떤 이점이 있습니까? min_gram이 max_gram과 같으면 min_gram 및 max_gram이 다른 시나리오와 비교하여 db 크기가 훨씬 작아집니다. min_gram 및 max_gram는 쿼리 자체보

    1

    1답변

    누군가 다음 문제를 해결하기 위해 올바른 방향으로 나를 가리킬 수 있습니까? 나는 샘플을 Disease control is good Disease control is poor Disease control is excellent Drug adherence Current drug Sodium Valproate Antibiotic VI Epileps

    0

    1답변

    이 코드는 n 그램과 n 그램이 나타나는 개수를 생성합니다. 필자는 행이있는 csv 파일과 모든 행에 대해 단어 열을 포함하는 열을 가지고 있습니다. 예를 들어이 코드를 검색하면 'this is my puppy'와 같은 4 그램을 얻습니다.이 코드는 동일한 행에서 발생하는 발생 횟수도 계산합니다. 내 의도는 행에 n-gram이 발생하면 한 번 계산해야하고

    2

    2답변

    ngram에서 가져온 여러 텍스트의 목록을 얻었으므로 원본 datatable에 열로 추가하고 싶습니다. > prep_test prep_test 1: Women Athletic,Athletic Apparel,Apparel Pants,Pants Tights,Tights Leggings 2:

    2

    1답변

    방금 ​​R에서 tm 패키지로 시작 했으므로 문제를 해결할 수 없습니다. 심지어 내 토크 나이 기능을하지만 바로 작동하는 것 : 나는 biTDM에서 2 그램을 끌어하려고 할 때 uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x)

    0

    1답변

    Ngrams를 사용하는 텍스트 예측 모델을 만들고 있습니다. DTM으로 변환하는 텍스트 문서 (트윗)가 있습니다. DTM은 7.3Mb입니다. 다음 코드를 사용하여 Ngram으로 변환하고 싶습니다. createNgramTable <- function(x) { m <- matrix(nrow = x$ncol, ncol = 2) m[,1] <-

    -2

    1답변

    csv 파일에 문장 A, B, C와 같은 여러 문장 (단락 아님)이 있다고 가정 해 봅니다. 그리고 N-gram (Unigrams 또는 Bigrams)을 사용하여 각 문장의 단어 행렬을 계산하려고합니다. 그래야 매트릭스에서 각 문장에 대해 계산 된 N-gram 벡터를 쉽게 얻을 수 있습니다. 어떻게해야합니까? 추신 : 몇 가지 방법을 시도했지만 모두 문장이

    2

    1답변

    Keras에서 단어의 n-gram을 사용하는 것이 사실입니까? 예를 들어, 문장 목록에는 X_train 데이터 프레임에 "문장"열이 포함됩니다. 나는 다음 방식으로 Keras에서 토크 나이 사용 tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_

    1

    1답변

    bigram을 사용하여 주제 모델을 작성하고 싶습니다. Java에서이를 구현하는 권장 방법은 무엇입니까? 현재 Mallet Java API를 사용합니다. 특히, ParallelTopicModel은 인스턴스 객체의 데이터 매개 변수에 문자열로 토큰을 전달합니다. 감사합니다.