Hadoop MapReduce를 사용한 전산 언어 프로젝트 아이디어

전산 언어학 과정에 대한 프로젝트를 수행해야합니다. Hadoop 맵 축소를 사용하여 작업하기에 충분한 데이터 집약적 인 "언어"문제가 있습니까? 솔루션이나 알고리즘은 "lingustic"도메인에서 약간의 통찰력을 시도하고 분석해야합니다. 그러나 그것은 큰 데이터 집합에 적용 할 수 있어야만 내가 hadoop을 사용할 수있다. hadoop을위한 파이썬 자연 언어 처리 툴킷이 있다는 것을 알고 있습니다.Hadoop MapReduce를 사용한 전산 언어 프로젝트 아이디어

출처

2010-03-01 Aditya Andhalikar

대형 컴퓨터를 일부 "비정상적인"언어 ("제한된 계산 언어학이 수행 된 컴퓨터"라는 의미에서)로 사용하는 경우 매우 일반적인 언어 (예 : 영어, 중국어, 아랍어 등)은 완벽하게 적절한 프로젝트입니다 (특히 학업 환경에서 그렇지만 업계에도 적합 할 수 있습니다). IBM Research와 전산 언어학을 전공했을 때 나는 퍼팅 이탈리아어를위한 코퍼스와 [[비교적 새로운 IBM 과학 센터]] [[내가 참여한]]의 IBM 연구 팀이 영어에 대해 이미 수행 한 것과 유사한 작업을 반복했습니다.

하드 작품은 일반적으로 그러한 코로나를 찾고/준비하고 있습니다. (IBM 이탈리아에서 온전한 도움을 받았음에도 불구하고 관련 데이터를 소유 한 출판사와 연락을 취하는 것이 가장 중요했습니다.)

질문이 커지면 어떤 질문에 답변 할 수 있습니까? 특히 "비정상적인"언어로 액세스 할 수 있습니까? 예 : 정리할 수 있습니까? 할 수있는 일은 예를 들어 영어입니다. 이미 인기있는 코퍼를 사용하면 소설과 재미있는 일을 할 수있는 기회가 물론 더 힘들지만 당연히 일부는있을 수 있습니다.

나는 당신이 엄격하게 "작성된"텍스트 처리에 대해 생각한다고 가정합니다. 의 코퍼스로 자료 (이상적으로는 과)를 사용했다면 기회는 끝이 없을 것입니다 (예 : 음성 텍스트 처리에 대한 작업이 거의 없습니다. 예를 들어 동일한 서면 텍스트의 다른 원어민이 발음 변형을 매개 변수화하는 것과 - 사실, 그런 문제는 심지어 도 undergrad CL 과정에 언급되지 않았습니다!).

출처

2010-03-01 03:11:17

아이디어가 좋은하지만 내가 한 달에 약 또는 프로젝트에 대한 최대 한 달 반에서 꽤 짧은 시간을 찾고 :

이 튜토리얼에서보세요. 어떤 아이디어? 나는 대규모 문서의 문서 분류가 좋은 아이디어일지도 모른다고 생각했다. –

@Aditya, 내가 요청한 중요한 설명없이 (이 작품을 위해, 특히 덜 탐구 된 언어로 어떤 대형 코알라를 사용할 수 있습니까?) 관련성있는 제안을하는 것은 불가능합니다. 위의 제 3 단락에 설명했듯이 왜 "큰 질문"에 대답하지 않기로 결정했는지 이해할 수 없습니다. –

DADO를 사용하여 Hadoop을 사용할 수있는 NLTK라는 Python 툴킷이 있습니다.

PyCon 2010에는이 주제에 대해 좋은 이야기가있었습니다. 아래 링크를 사용하여 강연에서 슬라이드에 액세스 할 수 있습니다. 바이오 메드 센트럴 발행 60K OA 논문에서

The Python and the Elephant: Large Scale Natural Language Processing with NLTK and Dumbo

출처

2010-03-01 07:05:22

다운로드 300M 단어. 명제 태도와 관련 감정 구조를 발견하도록 노력하십시오. 생물 의학 문헌은 살아있는 세계와 생물에 대한 형식적인 선언문을 만드는 데 어려움이 있기 때문에 헤지 (hedging)와 관련 구조로 가득 차있다. 즉 형태와 기능, 유전학과 생화학이다.

하둡에 대한 내 감정은 고려해야 할 중요한 도구이지만 목표를 설정하는 중요한 작업을 수행 한 후에 고려해야한다는 것입니다. 귀하의 목표, 전략 및 데이터는 귀하가 컴퓨터를 어떻게 사용 하는지를 결정해야합니다. 연구에 손톱 접근법을 찾아 망치를 조심하십시오.

이것은 내 연구실에서 진행되는 작업의 일부입니다.CL에

밥 Futrelle

BioNLP.org

이스턴 대학

출처

2010-03-01 14:30:38

한 연산 집약적 인 문제는 큰 의미 코퍼스로부터 추론된다. 기본 개념은 텍스트의 큰 컬렉션을 취하여 단어 (동의어, 반의어, 하위 단어, 상위어 등) 간의 의미 론적 관계를 배포본에서 추론하는 것입니다. 즉, 함께 또는 가까운 단어가 어떤 단어로 생성되는지를 추측하는 것입니다.

이것은 많은 데이터 사전 처리를 포함하며 MapReduce 스타일 병렬 처리에 가장 적합한 가장 가까운 인접 검색 및 N x N 비교를 포함 할 수 있습니다.

http://wordspace.collocations.de/doku.php/course:acl2010:start

출처

2010-10-28 23:08:10 mrjf

Hadoop MapReduce를 사용한 전산 언어 프로젝트 아이디어

답변

관련 문제