corpus

2열

1답변

나는 tm 패키지를 처음 사용하고 있으며 도움에 감사 할 것입니다. tm 패키지 (아래 참조)의 다양한 기능을 사용하여 불필요한 기호와 불용어를 추출한 게시물이 많이 있습니다. 마지막에는 필요한 깨끗한 문자열이 포함 된 201 개의 문서가 남아 있지만 R 개체가 아니라 VCorpus 개체입니다. 이 처리 된 문서를 모두 하나의 텍스트 파일로 스티치하여 하나

1열

3답변

JSON 파일에 저장된 텍스트에서 코퍼스 만들기 R

date, body 및 title으로 그룹화 된 텍스트가있는 여러 JSON 파일이 있습니다. 예를 들어 고려 : {"date": "December 31, 1990, Monday, Late Edition - Final", "body": "World stock markets begin 1991 facing the threat of a war in the Per

0열

1답변

nltk corpus의 Words.word()가 이상한 유효하지 않은 단어를 포함하고 있습니다.

이 코드는 nltk 라이브러리의 word.words()에있는 모든 단어를 반복 한 다음 단어를 배열로 푸시합니다. 그런 다음 배열의 모든 단어를 검사하여 동일한 라이브러리를 사용하여 실제 단어인지 확인하고 "adighe"와 같이 실제로는 많지 않은 이상한 단어를 찾습니다. 무슨 일 이니? import nltk from nltk.corpus import w

0열

1답변

corpusSource 객체에서 코퍼스를 생성하지 못했습니다.

32 비트 제한으로 인해 3Gb 만 액세스 할 수있는 4Gb RAM이있는 32 비트 운영 체제에서 Windows 7을 사용하고 있습니다. 나는 그 밖의 모든 것들을 닫았고, 시작하기 전에 캐시 된 1Gb와 1Gb 정도를 가지고 있음을 볼 수 있습니다. "무료"메모리는 다양하지만 때로는 0입니다. quanteda 사용 - 나는 157Mb corpusSourc

0열

1답변

각 코퍼스의 처음 25 단어를 가져 오는 방법 (R)?

저는이 기법이 코퍼스인지 여부에 관계없이 모든 데이터 프레임의 첫 번째 N 문자를 가져 오는 것과 비슷하다고 추측합니다. 내 시도 : Greetings를 n = 6 코퍼스로 시작 create.greetings <- function(corpus, create_df = FALSE) { for(i in length(Charlotte.corpus.raw)

1열

2답변

STM에 메타 데이터를 추가 R

R의 STM 패키지에 문제가 있습니다. Quantum에 코퍼스를 구축했으며이를 STM 형식으로 변환하려고합니다. 독립된 CSV 파일로 메타 데이터를 저장 했으므로 텍스트 문서를 메타 데이터와 병합하는 코드가 필요합니다. readCorpus()하고 "변환은() 함수를 자동으로 코퍼스에 메타 데이터 정보를 추가하지 이는 Quanteda의 모습 :. EUdocv

1열

1답변

파이썬에서 Unified Verb Index를 어떻게 사용합니까?

nltk에 VerbNet 자료가 포함되어 있음을 알고 있지만 Unified Verb Index은 그 정보와 3 개의 유용한 소스를 결합한 것입니다. 파이썬에서이 코퍼스를 사용할 방법이 있습니까?

0열

2답변

wordnet?

나는 nltk을 처음 사용하고 있으며, wordnet 기능이 매우 유용하다고 생각합니다. synsets, hypernyms, similarity 등을 제공하지만, '델리'- '하이데라바드'와 같은 위치 사이의 유사성을 분명히주지 못합니다. 분명히 이러한 단어는 워드 넷 코퍼스에 없습니다. 그래서, 어떻게 든 워드 넷 코퍼스를 업데이트하거나 다른 코퍼스를 통

4열

1답변

R에서 Quanteda를 사용할 때 텍스트 Corpus에서 비 ASCII 문자를 제거하는 가장 좋은 방법은 무엇입니까?

나는 절박한 필요가있다. 나는 공통 언어로 변환 한 코퍼스를 가지고 있지만, 일부 단어는 제대로 영어로 변환되지 않았다. 따라서 내 코퍼스에는 "(U + 00F8)"와 같은 ASCII가 아닌 문자가 있습니다. 나는 Quanteda을 이용하고 있고이 코드를 사용하여 내 텍스트를 가져온 : EUCorpus <- corpus(textfile(file="/User

0열

1답변

nltk python을 사용하여 movie_review와 비슷한 코퍼스를 만드는 방법 3.4

나는 문제가 생겨서 내가 성취하려고하는 것을 요약 할 것이므로 분명히 나를 안내 할 수있다. 내가 코퍼스에게 movie_reviews 유사한 뭔가를 만들 movie_review 만 2 개 범주를했지만,내 경우처럼 여러 개의 범주와 하위 범주이 곳. 예컨대 : 는 제가 는 'A', 'B', 'C', 'D'및 'E'와 같은 카테고리를 만들고자하는 my_corp