collocation

0열

2답변

Dracula.txt에 대해 NLTK가보고 한 결합을 나열하려고합니다. 어떻게해야합니까? 단어를 내 자료에 추가하여 단어 빈도를 찾을 수 있습니다. Dracula 텍스트의 단어가있는 변수 DracWords dracWords = mycorpus.words('Dracula.txt')도 있습니다. 이것에서 나는 주파수 분포를 할 수 있지만, 지금 내가 원하는 것

0열

2답변

분할 및 배열

구현중인 두 가지 기능에 대한 새로운 아이디어를 찾고 있습니다. 1) 텍스트 분할 기능 : 배열의 Ex: User Query: Resolved Query: ----------- --------------- It has lotsofwordstogether It has lots of words toge

0열

1답변

NLTK Colligations에서 Trigrams를 찾는 동안 인식 할 수없는 단어 얻기

NLTK Collocations를 사용하여 Trigram을 찾고 'training_set'은 많은 텍스트 줄이있는 문자열입니다. finder = TrigramCollocationFinder.from_words(str(training_set)) print finder.nbest(trigram_measures.pmi, 5) 하지만 [('\xe5', '\x

1열

1답변

문서 경계를 존중하도록 BigramCollocationFinder (nltk)를 사용할 수 있습니까?

NLTK를 사용하여 여러 가지 고유 한 문서를 분석했습니다. 이 문서의 내용은 모두 동일한 토큰으로 끝나고 시작하는 경향이 있음을 의미합니다. 문서를 목록의 목록으로 토큰화한 다음 BigramCollocationFinder.from_documents를 사용하여 찾기를 만듭니다. 난 원시 주파수로 ngrams 점수를 때, 나는 가장 일반적인 발생은 끝 문자/

3열

2답변

NLTK : 단어 2k 크기의 컨텍스트 찾기

나는 코퍼스가 있으며 단어가 있습니다. 코퍼스에서 단어가 나타날 때마다 k 단어와 k 단어가 단어 뒤에 나오는 목록을 얻고 싶습니다. 이 알고리즘 적으로 OK (아래 참조)를하고 있지만 NLTK가 내가 놓친 내 요구에 대한 일부 기능을 제공하고 있는지 궁금해했다. def sized_context(word_index, window_radius, corpus)

1열

1답변

mysql 문자를 변환하는 중

latin1_swedish에있는 데이터베이스가 있습니다. 좀 더 많은 텍스트를 추가해야합니다. 새 텍스트에는 브라질 단어가 포함되어 있습니다. 예 : 틸라피아 의 cachaça ... DB에있다 오래된 텍스트가 너무이 말을 가지고 있지만이처럼 : tilÃ¡을 피아 PHP fi 오른쪽 악센트를 사용하여 실제 단어로 변환합니다. 이 텍스트를 추가하고 PHP 변