데이터 세트를 통해 스탠포드 코어 NLP를 사용하려고했지만 찾을 수없는 특정 인덱스에서 멈 춥니 다. Kaggle에서 데이터 세트를 사용할 수 있습니다. https://www.kaggle.com/PromptCloudHQ/amazon-reviews-unlocked-mobile-phones/data전체 데이터 세트에 스탠포드 코어 NLP 어노 테이터를 실행할 수 없습니다.
개별 문장의 평균 감정 값을 사용하여 단락의 정서를 출력하는 기능입니다.
import json
def funcSENT(paragraph):
all_scores = []
output = nlp.annotate(paragraph, properties={
"annotators": "tokenize,ssplit,parse,sentiment",
"outputFormat": "json",
# Only split the sentence at End Of Line. We assume that this method only takes in one single sentence.
#"ssplit.eolonly": "true",
# Setting enforceRequirements to skip some annotators and make the process faster
"enforceRequirements": "false"
})
all_scores = []
for i in range(0,len(output['sentences'])):
all_scores.append((int(json.loads(output['sentences'][i]['sentimentValue']))+1))
final_score = sum(all_scores)/len(all_scores)
return round(final_score)
import pandas as pd
data_file = 'C:\\Users\\SONY\\Downloads\\Amazon_Unlocked_Mobile.csv'
data = pd.read_csv(data_file)
from pandas import *
i = 0
my_reviews = data['Reviews'].tolist()
senti = []
while(i<data.shape[0]):
senti.append(funcSENT(my_reviews[i]))
i=i+1
는하지만 어떻게 든이 오류가 나는 문제를 찾을 수 없습니다입니다. 그 많은 시간이 지금 친절하게 도와줍니다.
[1]: https://i.stack.imgur.com/qFbCl.jpg
이 오류를 방지하려면 어떻게해야합니까?
'pos'주석자를 추가했지만 여전히 "TypeError : 문자열 인덱스가 정수 여야 함"오류가 발생했습니다. 그것은 약간의 인덱스를 실행하지만 다음이 오류를 제공합니다. –
계산 한 후 인쇄 (출력)하면 어떻게됩니까? –
코드에 따르면, 출력 [ 'Sentiment'] [i] [ 'sentimentValue'] 을 사용합니다. 그러나 개별 반복을 요청하는 경우 각 반복에 대한 인쇄 출력은 각 문장에 대한 정보 사전을 인쇄합니다. –