Nokogori가이 html 파일을 올바르게 구문 분석하지 않는 이유를 알 수 없습니다. 이 html 파일은 Delicious에서 북마크 내보내기입니다. 그것에는 400 개의 링크가 있지만 항상 오직 254 개의 링크만을 파싱합니다. 나는 다른 Delicious html 내보내기 파일을 가지고 있는데, 링크가 다른 254 개의 링크와 2000 개의 링크를 올바르게 파싱하는 링크가 있으므로 문제를 일으키는 특정 링크가있는 것처럼 보입니다. 나는 정말로 확신하지 못한다. html이 글자 수 제한을 초과하는이 글의 본문을 표시하기 때문에 여기 html로 연결됩니다. 이것은 (실제 HTML은 400 개 이상의 태그가) html로의 예입니다 : 나는 Carrierwave 보석과 HTML 파일을 업로드하고 분석하고 있습니다Nokogiri가 Delicious에서 내 보낸 북마크 HTML을 올바르게 구문 분석하지 않습니다.
<!DOCTYPE NETSCAPE-Bookmark-file-1>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
<!-- This is an automatically generated file.
It will be read and overwritten.
Do Not Edit! -->
<TITLE>Bookmarks</TITLE>
<H1>Bookmarks</H1>
<DL><p>
<DT><A HREF="http://www.lecartelclothing.com/" ADD_DATE="1459226337" PRIVATE="1" TAGS="montreal,art,design">Le Cartel | Le Cartel Clothing Inc.</A>
<DT><A HREF="http://parkdaleprojectread.org/" ADD_DATE="1459226204" PRIVATE="1" TAGS="ngo">Parkdale Project Read</A>
<DT><A HREF="http://darkmp3.ru/" ADD_DATE="1458608207" PRIVATE="1" TAGS="music,blogs,music_blog,download">Dark mp3</A>
<DT><A HREF="http://www.sbs.com.au/programs/the-family-law/article/family-law-episode-guide" ADD_DATE="1458603937" PRIVATE="1" TAGS="asian,china,cinema">The Family Law: Watch the series | Programs</A>
<DT><A HREF="http://asiansdoingeverything.tumblr.com/" ADD_DATE="1458602744" PRIVATE="1" TAGS="asian,blogs,china">Asians Doing Everything</A>
</DL></p>
. 노코 기리가 예상대로 문서를 구문 분석하지 않는 경우
doc = Nokogiri::HTML.parse html_upload.file.read
puts doc.css('a').count
에 오신 것을 환영합니다 스택 오버플로. "[mcve]"를 읽으십시오. 예상 출력과 함께 질문 자체에 최소 입력 (HTML) _이 필요합니다. 해당 정보를 추적하거나 귀하의 정보를 줄이기 위해 오프 사이트에 갈 것을 기대하지 마십시오. 우리가 대신 당신을 도울 수 있습니다. 링크 썩은 다음 휴식, 그리고 그들이 당신의 질문을 할 때 우리 또는 다른 사람에게 비슷한 솔루션을 찾고 이해가되지 않습니다. –
나는 시도했지만 글자 수 한도를 치고 있었고 당시 html의 길이는 대답과 관련이 있다고 생각했습니다. – TenJack
그것이 사실이 아니라는 것을 알고 있기 때문에 질문을 수정하여 지침을 충족시키는 것이 좋을 것입니다. –