corpus

    0

    1답변

    역역 인식 방법을 평가하기위한 MSRPC (Microsoft Research Paraphrase Corpus) 이외의 자료가 있습니까? 나는 MSRPC를 사용하고 있지만, 나는 나의 접근법을 평가하기 위해 다른 자료를 필요로한다.

    9

    3답변

    시스템에서 이름이 지정된 엔터티 인식을 위해 훈련 할 무료 태그가 지정된 코퍼스를 찾고 있습니다. 내가 찾은 대부분의 사람들 (뉴욕 타임즈 같은 사람)은 비싸지 만 열리지 않습니다. 누구든지 도와 줄 수 있습니까?

    1

    1답변

    단어 사용법에 대한 통계를 계산하는 코드를 작성 중입니다. 누구든지 지난 한 해 동안 다양한 주제의 원시 뉴스 기사 데이터베이스를 어디에서 찾을 수 있는지 알고 있습니까? 바람직하게는 일반 텍스트 형식이나 XML 형식이어야합니다. 임의의 웹 사이트에서 콘텐츠를 긁어내는 것은 좋은 방법이 아닙니다. 앞으로 계속 진행할 수 있으리라 생각합니다. 그러나, 나는

    3

    1답변

    파일에 항목이 없어도 코퍼스를 만드는 방법이 있습니까? 예를 들어, 나는 웹에서 잡는 짹짹이나 단락을 조작하고 싶습니다. 나는 myCorpus = MyCorpus([ ('id', 'item', 'category'), ('id', 'item', 'category'), ('id', 'item', 'category'), ...

    4

    2답변

    나는 간단한 텍스트 마이닝 응용 프로그램을 작성하여 독일어 단어의 성별과 복수형을 알리려고합니다. 우선, 나는 훈련을 위해 큰 단어 목록이 필요합니다. 나는 주변을 수색했지만 성별이나 복수 성을 가진 목록을 찾을 수 없었다.

    5

    1답변

    나는 NLP를 배우고있다. 나는 현재 Word Sense Disambiguation로 놀고있다. 나는 semcor corpus를 훈련 데이터로 사용할 계획이지만 xml 구조를 이해하는 데 어려움이 있습니다. 나는 인터넷 검색을 시도했지만 semcor의 콘텐츠 구조를 설명하는 리소스를 얻지 못했습니다. 내가 wnsn 있으리라 믿고있어 <s snum="1">

    5

    3답변

    전 텍스트 전체 텍스트 스타일 검색을 실행하기 위해 텍스트 모음을 찾고 있습니다. 다운로드 할 수있는 것 또는 그것을 생성하는 시스템. 예를 들어 무작위 비트가 더 좋을 수 있습니다. 1,000,000 개의 위키피디아 기사를 2 열 데이터베이스 (ID, 텍스트)에 삽입하기 쉬운 형식으로 작성합니다. 의견이나 제안이 있으십니까?

    5

    1답변

    나는 간단한 러시아어 - 영어 단어 corpus를 찾고있다. 첫 번째 열에는 러시아 단어가 나열되고 두 번째 열에는 동등한 영어 단어가 나열된 csv처럼 간단 할 수 있습니다. 내가 그런 것을 찾을 수있는 어떤 아이디어? NLTK 툴킷에는 다음과 같은 것이 있습니까? 감사

    2

    1답변

    저는 파스 트리 콜렉션을 가지고 있는데, 여기에는 들여 쓰기가 구조를 결정하는이 ascii 표현에 있습니다 (닫는 괄호는 암시 적입니다). 괄호가 구조를 결정할 수 있도록 s-expressions로 변환해야합니다. 그것은 파이썬의 중요한 공백 대 괄호와 조금 비슷합니다. 입력 형식과 같이, 나무의 수직 표현 : STA:fcl =S:np ==DN:pron

    8

    1답변

    나는 이것이 길다는 것을 알고있다. 그러나 음절에 의한 스트레스 정보를 가진 영어 단어의 데이터 세트를 아는 사람은 누구인가? 다음과 같은 간단한 것이 환상적 일 것입니다. AARD vark A ble a BOUT ac COUNT AC id ad DIC tion ad VERT ise ment ...