다양한 요구 사항을 지닌 Nokogiri를 사용하여 데이터베이스에서 다른 URL을 긁는 방법

Feedjira를 사용하여 뉴스 피드의 콘텐츠 분석을 돕기 위해 노력했지만 RSS 피드는 RSS로 포함시키는 것이 아니라 " Feedjira not adding content and author ". Feedjira를 사용하여 기사의 URL을 얻으 려하지만 Nokogiri를 사용하여 기사를 긁어서 관련 부분을 선택하십시오.다양한 요구 사항을 지닌 Nokogiri를 사용하여 데이터베이스에서 다른 URL을 긁는 방법

문제는 각 미디어 콘센트의 페이지마다 다른 형식이 있으므로 Nokogiri가 데이터베이스 (Feedjira에서 제공)에서 URL을 가져 오는 가장 좋은 방법을 알아야하며 관련 피드 제목에 따라 Feedjira sync의 데이터베이스)는 특정 방식으로 페이지를 긁어 데이터베이스의 별도 테이블에 저장합니다. 누구든지 제안을 받았습니까?

출처

2017-01-16 Dave C

특별한 사용 사례를 모르겠지만 뉴스 피드를 사용하여 콘텐츠를 분석하고 있습니다. Readability에 일반 콘텐츠 스크레이퍼를 제공합니다.

출처

2017-01-16 09:59:14 PascalTurbo

나는 모양을 보았지만 매우 일반적인 것처럼 보입니다. 이상적으로 필자는 저자뿐만 아니라 여러 가지 다른 속성을 긁어 모으는 방법을 찾고 있으며 가독성으로이 작업을 수행 할 수 있는지 확신 할 수 없습니까? 나는 [Mercury Parser] (https://mercury.postlight.com/web-parser/)와 [Ruby wrapper] (https://github.com/moisesnarvaez/mercury_parser)를 찾았지만 용어는 한계가있는 것처럼 보인다. . –

발생하는 문제는 모든 피드 생성기가 HTML 생성기와 조금 다르게 처리한다는 것입니다. 특정 필드가 RDF, RSS 또는 ATOM 피드에 제 위치에 있다고 가정 할 수 있지만 피드 작성자는 매우 유용 할 수있는 선택 태그를 사용할 수 있으므로이를 찾기 위해 코드를 작성해야합니다.

나는 매일 1000 개 이상의 피드를 처리하는 것을 포함하여 과거에 여러 개의 피드 수집기를 작성했습니다. 피드 형식 ATOM 대 RSS RDF를 스니핑하면 형식이 흥미 롭다고 생각되는 분야를 현명하게 검사하고 사용할 수있는 경우 데이터를 추출 할 수 있습니다.

미리 준비된 파서는 원하지 않는 데이터를 잡아 내고 출력을 엉망으로 만들거나 출력에 간격을 남기고 싶지 않은 데이터를 건너 뛰기 때문에 너무 자주 잘못 처리되므로 코드 작성을 준비하십시오. 그것을 올바르게하고 싶습니다.

마지막으로 보았던 것과 다시보아야 할 때를 추적하기 위해 백업 데이터베이스를 활용하는 것이 좋습니다. 그것은 훌륭한 네트워크 시민이되는 것의 일부입니다. 마지막으로 n 시간 동안 피드가 다운되었는지 여부를 추적하여 죽은 사이트를 제거 할 수 있습니다.

출처

2017-01-17 18:43:30

다양한 요구 사항을 지닌 Nokogiri를 사용하여 데이터베이스에서 다른 URL을 긁는 방법

답변

관련 문제