문장의 순서가 문제가 될 수 있다는 증거를 제공하는 this question을 발견했습니다 (그러나 효과는 다른 임의적 초기화의 결과 일 수도 있음).gensim의 word2vec 실현은 문맥을 조사 할 때 문장 수준을 넘어서는가요?
나는 내 프로젝트에 대한 Reddit comment dumps를 처리하기를 원하지만 JSON에서 추출 된 문자열은 정렬되지 않은 수와 매우 다른 subreddits와 주제에 속하는 것, 그래서 나는 엉망 상황에 싶지 않은 : 그래서
{"gilded":0,"author_flair_text":"Male","author_flair_css_class":"male","retrieved_on":1425124228,"ups":3,"subreddit_id":"t5_2s30g","edited":false,"controversiality":0,"parent_id":"t1_cnapn0k","subreddit":"AskMen","body":"I can't agree with passing the blame, but I'm glad to hear it's at least helping you with the anxiety. I went the other direction and started taking responsibility for everything. I had to realize that people make mistakes including myself and it's gonna be alright. I don't have to be shackled to my mistakes and I don't have to be afraid of making them. ","created_utc":"1420070668","downs":0,"score":3,"author":"TheDukeofEtown","archived":false,"distinguished":null,"id":"cnasd6x","score_hidden":false,"name":"t1_cnasd6x","link_id":"t3_2qyhmp"}
이웃 문장이 gensim word2vec에 중요합니까? 전체 주석 구조를 복구해야합니까, 아니면 간단히 "문장 봉지"를 추출하고 그것에 모델을 훈련시킬 수 있습니까?
고맙습니다. 늦게 응답 해 주셔서 감사합니다. Reddit 덤프는 의견이 엇갈린다고 생각합니다. 따라서 구조를 재구성하는 작업에서 나를 구해 줬습니다. – Slowpoke