2009-08-31 4 views
1

&을 구문 분석해야합니다. 반 구조화 된 텍스트 (기본적으로 법률 문서 - 법률 텍스트, 부록, 조약, 판사의 결정 등)를 처리해야합니다. 제가하고자하는 가장 근본적인 부분은 챕터, 기사, 부제목, 그리고 일부 메타 데이터를 포함하여 하위 부분이 어떻게 구성되어 있는지에 대한 정보를 추출하는 것입니다. 내 질문은이 유형의 텍스트 프로세싱에 대한 시작점을 가르쳐 줄 수 있다면, 많은 연구가 있었지만 찾을 수있는 것은 주로 코드와 같은 엄격한 문법으로 구문 분석하거나, 또는 완전 자유형 텍스트 (예 : Google이 웹 페이지에서 수행하려고 시도하는 것) 올바른 키워드를 사용하면 Google과 저널 데이터베이스에서 더 많은 성공을 거둘 수 있다고 생각합니다. 감사.자연 언어 처리/텍스트 구조 분석 시작 지점

답변

0

결코 전에 해본 적이 없지만, 내가 간다면 확실히 ANTLR을 조사 할 것입니다. 그것의 꽤 인기있는 프로젝트와 아주 잘 당신의 언어로 포트를 선택할 수 있습니다.

1

natural language toolkit은 재미있는 시작일 수 있으며 자연어 처리의 모든 영역에 많은 자원이 있습니다. 아마 당신이 필요로하는 것보다 더 언어 적으로 집중되어있을 것입니다.

다른 옵션은 너무 엄격하지 않은 (일반적으로 코드 용으로 사용되는) 일부 파서 생성기 라이브러리로 이동하는 것입니다. 즉, 필요한 경우 큰 텍스트의 덩어리를 무시할 수 있습니다. 파이썬에서는 pyparsing을 추천합니다. another answer에서 임의의 텍스트 묶음을 무시할 때 할 수있는 일의 간단한 예를 보여 줬습니다.