최근에 링크 된 데이터를 탐색 해왔고 다른 문제가 계속 발생했습니다. 외부 엔드 포인트에 액세스하는 동안 성능 지연을 극복하기 위해 데이터 덤프를 로컬로 저장하려고했습니다.
링크 된 데이터의 데이터 품질 문제를 처리하는 방법
그러나 데이터 세트에는 주로 문제가 있습니다. 자주 발생하는 URI 품질 (예 : 예나의 TDB에서 가져 오기 오류 : Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>
)
어떻게 이러한 문제를 해결할 수 있습니까? 이러한 데이터 덤프를 치료하거나 심지어 문제가있는 이러한 트리플을 제거하는 방법이 있습니까?
현재 필요한 경우 양쪽 옵션 모두 괜찮습니다. 그런 텍스트 툴을 가르쳐 주시겠습니까? – RDangol
파이썬 스크립트를 작성하여 데이터 세트를 정리했습니다. 지금까지 제대로 작동하는 것 같습니다. – RDangol