2017-11-04 22 views
0

최근에 링크 된 데이터를 탐색 해왔고 다른 문제가 계속 발생했습니다. 외부 엔드 포인트에 액세스하는 동안 성능 지연을 극복하기 위해 데이터 덤프를 로컬로 저장하려고했습니다.
링크 된 데이터의 데이터 품질 문제를 처리하는 방법

그러나 데이터 세트에는 주로 문제가 있습니다. 자주 발생하는 URI 품질 (예 : 예나의 TDB에서 가져 오기 오류 : Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>)

어떻게 이러한 문제를 해결할 수 있습니까? 이러한 데이터 덤프를 치료하거나 심지어 문제가있는 이러한 트리플을 제거하는 방법이 있습니까?

답변

0

URI가 좋지 않으면 텍스트 도구로 입력 파일을 처리하는 것이 시작하는 방법입니다. N- 트리플은보다 쉽게 ​​작업 할 수 있습니다. 나중에 더 많은 작업을 처리 할 수 ​​있습니다.

[space]의 경우 %20으로 바꾸면 법적 URI가 생성되지만 URI는 다릅니다. 이것이 데이터에 미치는 영향은 데이터 및 사용자가 원하는 작업에 따라 다릅니다. 나쁜 트리플 (다른 텍스트 처리 옵션)을 제거하는 것만 큼 나쁜 피사체 주위의 모든 트리플을 제거하여 데이터를 정리해야하는지 여부는 데이터의 모양에 따라 다릅니다.

다른 문제는 상류로 되돌아 오는 문제를보고하여 원점에서 수정할 수 있다는 것입니다.

+0

현재 필요한 경우 양쪽 옵션 모두 괜찮습니다. 그런 텍스트 툴을 가르쳐 주시겠습니까? – RDangol

+0

파이썬 스크립트를 작성하여 데이터 세트를 정리했습니다. 지금까지 제대로 작동하는 것 같습니다. – RDangol