2017-09-30 15 views
0

Reddit에서 상위 100 개의 게시물을 다운로드 중입니다. 그럼에도 불구하고 많은 것은 외부 링크, jpg 파일 또는 다른 유형의 비 텍스트 콘텐츠입니다. 그러므로 나는 주로 빈 단위로 구성된리스트를 얻는다. selftext을 포함하는 항목 만 검색하는 방법이 있는지 궁금합니다.selftext reddit praw로 항목 만 검색

수입 JSON 수입 NLTK 무언가가, is_self 텍스트 포스트인지 아닌지 확인하기위한 플래그 내장이 수입 다시 수입 팬더

appended_data = [] 

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries 

for submission in top_python: 
    if not submission.stickied: 

     appended_data.append(submission.selftext) 



str_list = list(filter(None, appended_data)) 

답변

2

: 여기 내 코드입니다. 업데이트 된 버전의 코드는 다음과 같이 표시됩니다.

import json 
import nltk 
import re 
import pandas 

appended_data = [] 

subreddit = reddit.subreddit('bitcoin') 

top_python = subreddit.hot(limit=100) entries 

for submission in top_python: 
    if not submission.stickied and submission.is_self: 

     appended_data.append(submission.selftext) 



str_list = list(filter(None, appended_data)) 

추가 질문이 있으시면 언제든지 문의하십시오.