2015-02-05 5 views
2

문장의 길이가 길어질수록 Stanford Parser의 구문 분석 시간이 늘어난다는 것을 이미 알고 있습니다. 나는 정확성에 타협하지 않고 구문 분석 시간이 줄어들도록 문장을 잘라내는 창조적 인 방법을 찾는데 관심이 있습니다. 예 : 우리는 알려진 명사구를 한 단어 명사로 대체 할 수 있습니다. 마찬가지로, POS 태그 정보를 사용하여 손에 잡히기 전에 하위 트리를 추측 할 수있는 다른 방법이 있을까요? 우리는 우리가 처리 할 수있는 구조화되지 않은 텍스트의 거대한 코퍼스를 가지고 있습니다. 따라서 궁극적으로 파싱 시간을 줄일 수있는 몇 가지 일반적인 패턴을 배우고 자합니다. 또한 이와 관련하여 공개적으로 이용 가능한 문헌에 대한 일부 언급은 매우 높이 평가 될 것입니다.스탠포드 파서의 문장을 잘라내어 시간을 분석합니다.

P. 우리는 이미 스탠포드 파서 (Stanford Parser)를 사용하여 멀티 스레드하는 방법을 알고 있습니다. 그래서 우리는 그 관점에서 대답을 찾고 있지 않습니다.

+0

정말로 당신이 나가려는 대상에 달려 있습니다. 너 잃을 게 뭐야? – Dan

답변

4

당신은 '창조적 인'접근법을 요구했습니다. 세포 폐쇄 가지 치기 방법을 살펴볼 가치가 있습니다. Brian Roark, Kristy Hollingshead 및 Nathan Bodenstab의 일련의 간행물을 참조하십시오. 논문 : 123. 기본적인 직관이다

  • 소정 기간 '덮개'는 CYK 파싱 차트의 각 셀 (예를 들어 첫 번째 문장 4 개 단어 또는 단어 13-18 등)
  • 어떤 단어 - 특히 특정 문맥에서 - 은 매우이고, 다중 단어 구문 구성 요소를 시작하지는 않을 것입니다. 다른 사람들도 마찬가지로 구성 요소를 끝내기는 어렵습니다. 예를 들어, 'the'라는 단어는 거의 항상 명사구 앞에 오며 구성 요소를 끝내는 것이 거의 불가능합니다.
  • 우리가 기계 학습 분류기를 훈련하여 매우 높은 정밀도로 그러한 단어를 식별 할 수 있다면, 우리는 구문 분석에 참여할 셀을 식별 할 수 없으므로이 단어를 매우 쓸데없는 구문 위치에 배치 할 수 있습니다. 이 분류자는 선형 시간대의 POS tagger 또는 다른 고속 전처리 단계를 사용할 수 있습니다.
  • 이러한 셀을 '닫음으로써'점근선과 평균 사례의 복잡성을 상당히 줄일 수 있습니다. 큐빅 복잡성에서부터 선형에 이르는 이론 실제적으로 우리는 정확도의 손실없이 약 n^1.5를 얻을 수 있습니다. 많은 경우에

, 실제로 치기 증가 약간 철저한 검색 대 정확성, 분류는 PCFG에 사용할 수없는 정보를 통합 할 수 있기 때문이다. 이것은 단순하지만 매우 효과적인 형태인데, 하나의 거친 단계로 (Berkeley Parser에서의 7 단계 CTF 접근법과 비교하여) 매우 조잡한 대지 간 정리 (pruning)입니다.

제 생각에 스탠포드 파서는 현재이 가지 치기 기술을 구현하지 않습니다. 네가 그걸 아주 효과적으로 찾은 것 같아.

부끄럼 플러그 BUBS Parser이 방법뿐만 아니라, 몇 가지 다른 최적화를 구현하고, 이에 따라 일반적으로 정밀도 적어도 동일한 것과 I는 측정 한와 초당 약 2500-5000 즉 처리량을 달성 스탠포드 파서. 스탠포드 파이프 라인의 나머지 부분을 사용한다면 당연히 내장 된 파서는 이미 잘 통합되고 편리합니다. 그러나 향상된 속도가 필요하다면 BUBS은 한 번 보일만한 가치가있을 수 있으며 더 큰 시스템에 엔진을 내장하는 데 도움이되는 몇 가지 예제 코드가 포함되어 있습니다.나는 일반적인 하부 구조를 공유하는 상황에서 (몇 년 전 비슷한 아이디어의 일부 평가했다 : 사전 분석 알려진 명사 구문이나 일관성있는 구조 다른 자주 관찰 순서에 대한 당신의 생각에 대해서는

Memoizing 공통 하위 문자열 대용량 병렬 아키텍처에서 구문 분석 할 때 큰 코퍼스를 가로 질러). 예비 결과는 고무적이지 않았습니다. 우리가 바라본 자료에서 보람있는 길이의 반복 된 부분 문자열이 충분하지 않았습니다. 그리고 앞에서 언급 한 셀 클로저 메서드를 사용하면 대개 그 부분 문자열을 실제로 구문 분석하기에 저렴하게 만들 수 있습니다.

그러나 대상 도메인에 많은 반복이 포함되는 경우 복사하여 붙여 넣기하는 상용구를 많이 사용하는 법률 문서에 효과적 일지 다른 결론을 내릴 수 있습니다. 소스를 수정하거나 수정 사항을 다시 게시 하시겠습니까?)