freebase.com에서 freebase-rdf-latest를 다운로드했습니다. 압축을 풀었고 380.7GB의 파일을 가지고 있습니다. 어떻게 데이터를 읽을 수 있습니까? 어떤 프로그램을 추천하나요? 도움 주셔서 감사합니다.Freebase - freebase-rdf-latest를 사용하는 방법?
답변
Virtuoso과 같이 트리플 저장소에 데이터를로드해야합니다. 다음 참조에서 데이터를로드하는 방법을 살펴볼 수 있습니다. 그러나
- , 당신은 트리플 저장소에 사전로드 된 유리 염기의 청소 버전을 제공하는 다른 프로젝트에 관심이있을 수 있습니다.
SindiceTech Freebase distribution하는 Freebase 데이터는 "전체"를 제외한 모든 간단 그것을 사용, 전체 다운로드 그러나 오늘로 사용할 수 있습니다. SindiceTech Freebase 배포는 RDF 관련 데이터베이스 ( triplestore라고도 함)에 사전로드 된 Freebase 지식을 모두 제공하고 이 쿼리를 작성하고 전체적으로 데이터를 이해할 수있게 해주는 일련의 도구를 갖추고 있습니다.
:BaseKB : BaseKB는 Google 지식 정보의 주요 출처 인 의 Freebase에서 파생 된 RDF 지식 기반입니다. : BaseKB는 약 Freebase 덤프의 절반에 해당하는 사실을 포함하고 있습니다. 이는 처리하기 힘든 비정상적이고 반복적 인 사실 인 을 제거하기 때문입니다. 의 최신 버전 : 당신이 그것에 대해 SPARQL 쿼리를 실행하고자하는 경우 BaseKB 골드 당신이 에 AWS 클라우드를 실행할 수 있습니다, 비트 토 런트, 를 통해 다운로드하거나 할 수있다, 7
감사! 너는 큰 도움이되었다! – mariana
@Nandana에 동의하지 않으며, 이 아니라고 말하면은 대부분의 용도로 트리플 저장소에로드해야합니다. 거기에 중복의 톤과 중복없이, 일반적으로 당신은 단지 그것의 작은 부분에 관심이 있어요.
또한 대부분의 응용 프로그램에서는 파일을 압축 된 상태로 유지하려고합니다. 아마도 파일 시스템에서 압축되지 않은 버전을 읽을 수있는 것보다 더 빨리 압축을 풀 수 있습니다. MapReduce 환경에서 처리하기 위해 파일을 분할해야하는 경우, 파일은 압축 해제하지 않고 분리 할 수있는 일련의 연결된 압축 파일입니다 (또는 적어도 사용되는 경우).
Nandana는 파생 데이터 제품에 대한 좋은 제안을 가지고 있습니다. 고려해야 할 단점은 업데이트 빈도와 필터링/추출 파이프 라인의 투명성입니다.
간단한 작업을 위해 zgrep, cut 및 관련 Unix 명령 행 도구를 사용하여 최신 데이터로 꽤 멀어 질 수 있습니다.
답변이 도움이되었거나 주제가 아닌 것으로 간주되는 이유에 대해 의견을 추가 하시겠습니까? –
정말 도움이되었습니다. 다들 감사 해요. 대답에 투표하려면 평판이 15 점이 필요합니다. – mariana
"파일 시스템에서 압축되지 않은 버전을 읽을 때보 다 빨리 압축을 풀 수 있습니다." - 요점, 고마워! –
제품 권장 사항은 여기에서 언급하지 않습니다. –
@SabreTooth mariana는 자신의 목표를 달성하는 가장 좋은 방법을 요구하는 "제품 권장 사항"을 요구하지 않습니다. 왜 그게 당신에게 문제가됩니까? –