2013-03-28 5 views
2

목표는 과학 텍스트의 구문 구문 분석입니다. 그리고 먼저 해당 텍스트의 문장을 품사 (part-of-speech) 태그로 표기해야합니다. 텍스트는 arxiv.org에서 제공됩니다. 그래서 그들은 원래 LaTeX에 있습니다. LaTeX 문서에서 텍스트를 추출 할 때 수학 표현식을 MathML (또는 다른 형식 일 수도 있지만,이 작업이 특정 웹 응용 프로그램을 만드는 데 필요하므로 MathML보다 더 선호합니다. MathML은이를위한 편리한 도구입니다).수학 표현식이 포함 된 텍스트의 품사 (part-of-speech) 태깅을 수행하는 방법은 무엇입니까?

내가 가지고있는 유일한 생각은 수학 표현을 자연어의 일부 구문으로 대체 한 다음 pos 태그로 구현 된 알고리즘을 사용하는 것입니다. 그래서 문제는이 대체 방법을 구현하는 방법, 또는 일반적으로 텍스트가 포함 된 텍스트의 pos-tagging을 구현하는 방법입니다.

+0

수식을 모두 삭제해도됩니까? 예, tokenizer에 규칙을 추가하여 수학 표현식을 제거하여 __formula__ 같은 것으로 대체하는 것만으로하면됩니다. – mbatchkarov

+0

수학을 하나의 단어로 대체하려고했습니다. 그러나 문제는 수학 표현이 다양한 구문 론적 역할을 할 수 있다는 것입니다. 즉, 명사 또는 숫자 또는 구로 사용할 수 있으므로이 결정은 많은 실수를줍니다. – kseniyam

+1

흥미 롭다, 나는 트위터 해시 태그와 비슷한 작업을 보았다. 몇 가지 예시 문장을 올리시겠습니까? – mbatchkarov

답변

0

나는 Stanford tagger 위에 공식 대체 알고리즘을 구현했으며 매우 훌륭하게 작동합니다. abecadel이 작성한 것처럼, 모든 수식을 독특하지만 새로운 단어로 바꿔 가며 갈 수있는 방법은 단어와 해시 수식 - duwkziah의 조합을 사용했습니다.

0

모든 수식을 단일으로 바꾸면 고유 단어가 이동하는 것 같습니다.