나는 워드 파일 처리를 위해 파이썬 docx를 사용하고있다. 큰 파일 (50+ 페이지)을 사용하는 동안 paragraph.text 메서드는 내 파일과 일치하지 않는 문자열을 반환합니다. import docx
document=Document(f)
paratext=[]
paragraphs=document.paragraphs
for paragraph in
평소보다 많은 n-gram을 가진 word2vec 모델을 만들고 싶습니다. 내가 찾은 것처럼 gensim.models.phrase의 Phrase 클래스는 원하는 구문을 찾을 수 있으며, 코퍼스에서 구문을 사용하고 word2vec 열차 기능의 결과 모델을 사용할 수 있습니다. 그래서 먼저 아래 코드를 gensim documentation에 입력하면됩니다. c
저는 파이썬에서 초보자입니다. 아마도 쉬운 질문이지만, 저는 정말로 붙어있어서 도움이 필요합니다. 파이썬에서 .txt 파일의 다른 텍스트 위에 텍스트를 나타나게하고 싶습니다. 여기 내 코드가있다 x = ''.join(random.choice(string.ascii_uppercase + string.ascii_lowercase + string.digits)
저는 전자 상거래 데이터를 파이썬으로 작업하고 있습니다. 나는 그 데이터를 파이썬에 로딩하고 그것을 판다 데이터 프레임으로 변환했다. 이제 원하지 않는 문자, 불용어, 형태소 분석 등을 제거하는 것과 같은 데이터 처리를 수행하려고합니다. 현재 적용한 코드는 잘 작동하지만 시간이 많이 걸립니다. 나는 처리 할 데이터의 행이 약 2 백만 개이며 처리하는 데 영
나는 Enron 전자 메일의 모든 본문을 하나의 파일에 추가하려고하므로 Stop 단어를 제거하고 NLTK로 문장으로 분할하여이 전자 메일의 텍스트를 처리 할 수 있습니다. 전달 된 메시지와 회신 한 메시지에 문제가 있습니다. 어떻게 치료할 지 모르겠습니다. Well, with the photographer and the band, I would say
내가 link = 'branch=;deps=;date=;rev=;days=1;user='
date = "10.12.2016"
re.sub(r'(.*)(date=[^;]*)(.*)','\\1\\2'+date+'\\3',link)
내가 'branch=;deps=;date=10.12.2016;rev=;days=1;user='
로 출력을 기다리고 있었다