2012-06-20 2 views
4

나는 연속 파서와 의존성 파서에 대해 읽었습니다. 그러나 혼란스러워서 최선의 선택이 될 수 있습니다.파서가 [생체 의학] 관계 추출에 가장 적합한가?

나의 작업은 영어 위키 백과 텍스트에서 관계를 추출하는 것입니다 (다른 소스도 나중에 포함될 수 있습니다). 흥미로운 두 엔티티 사이의 의미 론적 경로 (가장 중요한 정보 만 포함)가 필요합니다. 예 :

텍스트 형식 : "미국에서는 당뇨병이 모두가 알고 있듯이 일반적인 질병입니다."

나는 정보가 필요합니다

당신이 파서의 구현을 제안 "당뇨병 질병은?" 스탠포드? Maltparser? 또는 다른?

실마리가 있습니다.

+0

여기 http://videolectures.net/ecmlpkdd09_reichartz_dtkrenlt/ 뭔가 관련이 있습니다 ... – Matt

답변

4

구문 구문 분석기와 종속성 구문 분석기를 의미합니까? online Stanford Parser은 이러한 구문 분석 방법을 보여줍니다.

문법적 구문 분석은

(ROOT 
    (S 
    (PP (IN In) 
     (NP (NNP America))) 
    (, ,) 
    (NP (NNP diabetes)) 
    (VP (VBZ is) (, ,) 
     (PP (IN as) 
     (NP (NN everybody) (NNS knows))) 
     (, ,) 
     (NP (DT a) (JJ common) (NN disease))))) 

종속성 구문 분석 (붕괴)

prep_in(disease-13, America-2) 
nsubj(disease-13, diabetes-4) 
cop(disease-13, is-5) 
nn(knows-9, everybody-8) 
prep_as(disease-13, knows-9) 
det(disease-13, a-11) 
amod(disease-13, common-12) 
root(ROOT-0, disease-13) 

그들은 (콜린스의 논문이나 자세한 내용은 니베의 책 참조) 실제로 다르지 않다하지만 난 찾을 수는 의존성이보다 쉽게 ​​구문 분석 작업. 보시다시피, 당뇨병 -> 질병에 대한 직접적인 관계가 있습니다. 그런 다음 코 펄라를 부착 할 수 있습니다.

+0

생물 의학 관계에 대해 GENIA 파서가 유용 할 수 있지만 어떤 종류의 관계가 사용되는지에 달려 있습니다. 문헌을 읽으면서 최근 몇 년간 BioNLP 대회를 제안합니다. – nflacco

+0

오, 감사합니다. 귀하의 정보에 대해 많이 언급 했으니까요. 그래서, 당신은 또한 의존성 파서가이 경우 더 적합하다고 생각할 것입니다, 그렇죠? 의존성 파서를 선호하는 또 다른 이유는 속도입니다. 연속성 파서가 훨씬 느린 것 같습니다. – Matt

+0

종속 관계 파서에 의해 반환 된 관계가 일부 트리 개체를 작성하고 노드를 서로 연결하려고하는 것으로 더 쉽게 작업 할 수 있다고 생각합니다. 거의 시간을 절약합니다. – nflacco

4

물론 스탠포드 종속 파서와 같은 종속성 파서가 올바른 선택이 될 것입니다. 구문 구조를 가져오고 Stanford Dependencies을 사용하여 종속성으로 변환하는 데 과 함께 BLLIP reranking parser을 사용하는 것이 좋습니다. 이렇게하면 생물 의학 텍스트에 대한 더 나은 종속성 트리/그래프를 얻을 수 있습니다.