나는 매우 큰 데이터 세트 (위키피디아에서 추출)를 가지고 있습니다. 나는 각각의 테이블에서 의미있는 트리플 세트를 추출하려고한다. (이것은 위키 피 디아 infoboxes에서 triple을 추출하는 것과 충돌하지 않는다.정보 추출 트리플 폼 테이블
트리플은 인간에게 의미 상으로 의미가 있어야하며, 트리플이 URI 및 기타 형식으로 추출되는 DBpedia와는 다릅니다. 그래서 테이블 텍스트 값을 추출하는 것만으로도 괜찮습니다.
다양한 테이블 방향과 모양을 염두에 두십시오. 내가 보는 주요 작업은 테이블 레코드의 주요 엔터티 (예 : 학교 기록의 학생 이름)를 추출하여 트리플의 '제목'으로 사용할 수 있도록하는 것입니다.
이 같은 테이블에 대한 예
, 우리는 주요 실체를 알아야하는 것은 "서버"이고 관계가 있어야한다 그래서 다른 사람은 단지 객체와 같은 : 또한
<AOLserver> <Developed by> <NaviSoft>.
<AOLserver> <Open Source> <Yes>.
<AOLserver> <Software license> <Mozilla>.
<AOLserver> <Last stable version> <4.5.1>.
<AOLserver> <Release date> <2009-02-02>.
, 항상 주체가 테이블의 첫 번째 열에있는 것은 아니며, 어떤 주제로도 같은 주제에 대해 이야기하지 않는 테이블조차 있습니다.
이 주요 엔티티가 처음이 아닌 마지막 열 수있는 테이블은 다음과 같습니다
이 표는 같은 관계를 생성해야합니다 :
<Arsène Wenger> <Position> <Manager>.
<Steve Bould> <Position> <Assistant manager>
질문
내 첫 번째 질문은 규칙 기반 방법을 사용하여이 작업을 수행 할 수 있는가? 예를 중심으로 규칙을 정하고 일반화하려고 노력하여 올바른 개체를 탐지 할 수 있습니까? 예제 규칙을 제안 할 수 있습니까?
두 번째 질문은 평가에 대한 것입니다. 어떻게 그러한 시스템을 평가할 수 있습니까? 성능을 측정 할 수 있도록 어떻게 향상시킬 수 있습니까?
환상적 - 멋지게 완료되었습니다. 다행스럽게도 테이블 html의 의미 중 일부 (특히 Arsenal 페이지는 분명히 난독 화되었습니다!) –