corpus

0열

1답변

역역 인식 방법을 평가하기위한 MSRPC (Microsoft Research Paraphrase Corpus) 이외의 자료가 있습니까? 나는 MSRPC를 사용하고 있지만, 나는 나의 접근법을 평가하기 위해 다른 자료를 필요로한다.

9열

3답변

무료 엔터티 인식을위한 태그가 지정된 코퍼스 무료

시스템에서 이름이 지정된 엔터티 인식을 위해 훈련 할 무료 태그가 지정된 코퍼스를 찾고 있습니다. 내가 찾은 대부분의 사람들 (뉴욕 타임즈 같은 사람)은 비싸지 만 열리지 않습니다. 누구든지 도와 줄 수 있습니까?

1열

1답변

작년의 생생한 뉴스 기사는 어디에서 얻을 수 있습니까?

단어 사용법에 대한 통계를 계산하는 코드를 작성 중입니다. 누구든지 지난 한 해 동안 다양한 주제의 원시 뉴스 기사 데이터베이스를 어디에서 찾을 수 있는지 알고 있습니까? 바람직하게는 일반 텍스트 형식이나 XML 형식이어야합니다. 임의의 웹 사이트에서 콘텐츠를 긁어내는 것은 좋은 방법이 아닙니다. 앞으로 계속 진행할 수 있으리라 생각합니다. 그러나, 나는

3열

1답변

NLTK에서 문자열 모음으로 코퍼스를 만들 수 있습니까?

파일에 항목이 없어도 코퍼스를 만드는 방법이 있습니까? 예를 들어, 나는 웹에서 잡는 짹짹이나 단락을 조작하고 싶습니다. 나는 myCorpus = MyCorpus([ ('id', 'item', 'category'), ('id', 'item', 'category'), ('id', 'item', 'category'), ...

4열

2답변

독일어에 대해 성별과 복수 단어 목록을 찾을 수있는 곳은 어디입니까?

나는 간단한 텍스트 마이닝 응용 프로그램을 작성하여 독일어 단어의 성별과 복수형을 알리려고합니다. 우선, 나는 훈련을 위해 큰 단어 목록이 필요합니다. 나는 주변을 수색했지만 성별이나 복수 성을 가진 목록을 찾을 수 없었다.

5열

1답변

semcor 코퍼스 구조 이해 h

나는 NLP를 배우고있다. 나는 현재 Word Sense Disambiguation로 놀고있다. 나는 semcor corpus를 훈련 데이터로 사용할 계획이지만 xml 구조를 이해하는 데 어려움이 있습니다. 나는 인터넷 검색을 시도했지만 semcor의 콘텐츠 구조를 설명하는 리소스를 얻지 못했습니다. 내가 wnsn 있으리라 믿고있어 <s snum="1">

5열

3답변

FULLTEXT 스타일 검색을 테스트 할 데이터 세트 찾기

전 텍스트 전체 텍스트 스타일 검색을 실행하기 위해 텍스트 모음을 찾고 있습니다. 다운로드 할 수있는 것 또는 그것을 생성하는 시스템. 예를 들어 무작위 비트가 더 좋을 수 있습니다. 1,000,000 개의 위키피디아 기사를 2 열 데이터베이스 (ID, 텍스트)에 삽입하기 쉬운 형식으로 작성합니다. 의견이나 제안이 있으십니까?

5열

1답변

러시아어 - 영어 병렬 텍스트 코퍼스?

나는 간단한 러시아어 - 영어 단어 corpus를 찾고있다. 첫 번째 열에는 러시아 단어가 나열되고 두 번째 열에는 동등한 영어 단어가 나열된 csv처럼 간단 할 수 있습니다. 내가 그런 것을 찾을 수있는 어떤 아이디어? NLTK 툴킷에는 다음과 같은 것이 있습니까? 감사

2열

1답변

수직 트리의 treebank를 s- 표현으로 변환합니다.

저는 파스 트리 콜렉션을 가지고 있는데, 여기에는 들여 쓰기가 구조를 결정하는이 ascii 표현에 있습니다 (닫는 괄호는 암시 적입니다). 괄호가 구조를 결정할 수 있도록 s-expressions로 변환해야합니다. 그것은 파이썬의 중요한 공백 대 괄호와 조금 비슷합니다. 입력 형식과 같이, 나무의 수직 표현 : STA:fcl =S:np ==DN:pron

8열

1답변

음절 스트레스 정보가있는 영어 단어의 코퍼스/데이터 세트?

나는 이것이 길다는 것을 알고있다. 그러나 음절에 의한 스트레스 정보를 가진 영어 단어의 데이터 세트를 아는 사람은 누구인가? 다음과 같은 간단한 것이 환상적 일 것입니다. AARD vark A ble a BOUT ac COUNT AC id ad DIC tion ad VERT ise ment ...