2017-11-03 10 views
1

구조화되지 않은 텍스트에서 일부 정보를 추출하고 싶습니다. 예를 들어구조화되지 않은 텍스트에서 정확한 정보를 추출하는 방법

내 텍스트는 "제어 뉴욕 온도 39에서"입니다

내가 원하는 정보는 ("컨트롤", "아래", "뉴욕", "온도", "39").

결과 정보에는 조치를 나타내는 "control", 조치 대상을 나타내는 "NewYork", 표시기 인 "temperature"및 범위를 나타내는 "39 미만"이 있습니다.

그러나 텍스트 콘텐츠의 구조는 다양합니다.

다음은 일반적인 경우입니다.

"Control NewYork temperature under 39" 
==>("control","NewYork", "temperature", "under", "39") 

"give some money to my brother" 
==>("give", "money", "my brother") 

"Adjust the height of the table" 
==>("adjust", "table", "height") 

내 문제에 대한 제안 사항이 있습니까? 감사합니다.

답변

0

이런 종류의 구조적 예측을 수행하는 패러다임이 여러 가지 있습니다. 은 가장 흔한은 다음과 같습니다

를 사용하여 프레임 의미 : http://www.cs.cmu.edu/~ark/SEMAFOR/

사용 시맨틱 역할 라벨 (SRL) : http://cogcomp.org/page/demo_view/srl

가장 큰 차이점은 SRL의 의미 역할이 다른 동사에 대해 서로 다른 의미를 가지고있다, 프레임 의미 동안 의미 개념에 대한 일반적인 역할을 제공하는 추상화입니다.

Github에서 프레임 의미 구문 분석 또는 SRL을 수행 할 수있는 도구를 쉽게 찾을 수 있습니다. 그러나 SRL은 더 널리 사용됩니다.