corpus

1열

1답변

같은 기간에 텍스트 및 음성에서 영문 뉴스 도메인의 이름이 지정된 태그 된 코퍼스를 찾고 있습니다. 아무도 코퍼스에 대한 정보가 없다면 나에게 링크를 보내주십시오. 감사 Khadaka

0열

2답변

hadoop 스트리밍을 사용할 때 HDFS에서 nltk corpus를 가져 오는 방법

I got a little problem I want to use nltk corpus in hdfs,But failed.For example I want to load nltk.stopwords in my python code. I use this http://eigenjoy.com/2009/11/18/how-to-use-cascading-with-ha

0열

1답변

많은 게시물을 읽은 후 태그가 지정된 텍스트 파일

에서 사용자 지정 nltk corpus를 만들면 nltk에서 사용자 지정 자료를 만드는 데 여전히 probs가 있습니다. 나는 태그가있는 문장의 텍스트 파일을 가지고 있는데, 각 항목은 ... word/tag 형식의 문자열이다. 나는이 물건을 사용하여 술래 잡이를 훈련시키고 싶다. 다양한 taggers 유형을 교육하는 train-tagger라는 nltk 패

0열

1답변

R Corpus의 각 문서에 대한 XPath

DirSource를 사용하여 디렉토리에서 생성 된 R에 corpus x가 있습니다. 각 문서는 관련된 vBulletin 포럼 웹 페이지의 전체 HTML을 포함하는 텍스트 파일입니다. 스레드이므로 각 문서에는 XPath로 캡처하려는 여러 개의 별도 게시물이 있습니다. XPath는 작동하는 것처럼 보이지만 캡처 한 모든 노드를 다시 코퍼스에 넣을 수는 없습니다

0열

2답변

NLTK에서 "복제"하시겠습니까?

NLTK에서 자체 코퍼스를 만들려고합니다. 나는이 문서의 일부를 읽었으며 다소 복잡해 보인다. 내가하고 싶었던 것은 영화가 코퍼스를 검토하지만 내 텍스트로 "복제"하는 것 뿐이다. 이제 이동 검토 자료의 파일을 내 자신으로 변경할 수 있다는 것을 알았지 만 한 번에 하나의 코퍼스 만 사용하도록 제한합니다 (즉, 파일을 지속적으로 교환해야합니다). 영화 리뷰

0열

1답변

NLTK로 corpora의 여러 XML 파일을로드하고 Text 클래스로 전체적으로 사용하는 방법은 무엇입니까?

여러분, 기본적으로 간단한 XML 파일 인 NLTK 용 모음집을 작성했습니다. 나는 그런이 잘로드 할 수 있습니다 >>> from nltk.corpus import cicero >>> print cicero.fileids() ['cicero_academica.xml', 'cicero_arati_phaenomena.xml', ...] 지금, 내가 바로

0열

1답변

사전에서 문서 용어 행렬을 만듭니다.

텍스트 파일을 사전 처리하려고합니다. 각 행은 해당 문서의 빈도가있는 문서의 바이 그램 단어입니다. 여기서 각 라인의 예이다 : I는 전체 언어 자료로부터 사전을 생성하는 것을 처리 1 i_like 1 you_know 2 .... not_good. 이제 행별로 코퍼스를 읽고 사전을 가지고 문서 행렬을 만들고 행렬의 각 요소 (i, j)가 문서 "i"의 용어

0열

1답변

동의어 찾기 텍스트 마이닝 알고리즘

자동 동의어 찾기 알고리즘 (주로 브랜드 이름 용)을 만들고 싶습니다. 예를 들어 사용자가 "Coca cola"라는 단어를 입력하면 "Coke"라는 단어를 반환하고 싶습니다. 위의 내용은 위임장을 사용하여 쉽게 수행 할 수 있습니다. 그러나 나는 그것을위한 dictonary 파일을 필요로한다. 어떻게 자동으로 만들 수 있습니까? (나는 1 백만 + 레코드가

-1열

1답변

TF-IDF 및 벡터 모델

에 대한 데이터 세트 도움말 TF-IDF, 벡터 모델 및 TF-IDF 알고리즘의 일부 최적화를 비교하고 싶습니다. 그 때문에 데이터 세트가 필요합니다 (최소 100 개의 영문 텍스트 문서). 나는 하나를 찾을 수 없다. 어떤 제안?

2열

2답변

NLTK Python에서 코퍼스의 하위 범주를 만드는 방법

상위 범주에서 다른 범주를 만들려고했습니다. 작성할 수 있습니다. 어떻게 할 수 있으며 어떻게 이러한 하위 카테고리를 참조 할 수 있습니까?