python-textprocessing

1열

1답변

나는 워드 파일 처리를 위해 파이썬 docx를 사용하고있다. 큰 파일 (50+ 페이지)을 사용하는 동안 paragraph.text 메서드는 내 파일과 일치하지 않는 문자열을 반환합니다. import docx document=Document(f) paratext=[] paragraphs=document.paragraphs for paragraph in

0열

1답변

텍스트 처리 - 구문 검색 후 Word2Vec 학습 (bigram 모델)

평소보다 많은 n-gram을 가진 word2vec 모델을 만들고 싶습니다. 내가 찾은 것처럼 gensim.models.phrase의 Phrase 클래스는 원하는 구문을 찾을 수 있으며, 코퍼스에서 구문을 사용하고 word2vec 열차 기능의 결과 모델을 사용할 수 있습니다. 그래서 먼저 아래 코드를 gensim documentation에 입력하면됩니다. c

-3열

1답변

상단에 텍스트를 표시하는 방법? (Python)

저는 파이썬에서 초보자입니다. 아마도 쉬운 질문이지만, 저는 정말로 붙어있어서 도움이 필요합니다. 파이썬에서 .txt 파일의 다른 텍스트 위에 텍스트를 나타나게하고 싶습니다. 여기 내 코드가있다 x = ''.join(random.choice(string.ascii_uppercase + string.ascii_lowercase + string.digits)

-1열

1답변

단어의 가방에있는 단어 검색

안녕하세요, 저는 문제의 가방을 작성한 텍스트 처리 분류기를 만들고 있습니다 - 단어가 입력으로 주어지면 먼저 단어가 가방에 있는지 확인해야합니다 단어 의 두 번째 문제는 단어의 모음을 파일로 저장하는 방법입니다.

1열

1답변

데이터 프레임의 파이썬에서의 빠른 텍스트 처리

저는 전자 상거래 데이터를 파이썬으로 작업하고 있습니다. 나는 그 데이터를 파이썬에 로딩하고 그것을 판다 데이터 프레임으로 변환했다. 이제 원하지 않는 문자, 불용어, 형태소 분석 등을 제거하는 것과 같은 데이터 처리를 수행하려고합니다. 현재 적용한 코드는 잘 작동하지만 시간이 많이 걸립니다. 나는 처리 할 데이터의 행이 약 2 백만 개이며 처리하는 데 영

3열

1답변

영어 동사는</p> <pre><code>'thou sittest' → 'you sit' 'thou walkest' → 'you walk' 'thou liest' → 'you lie' 'thou risest' → 'you rise' </code></pre> <p>내가 그것을 같이, & 교체 찾으려면이 경우에 정규식을 사용할 수 있습니다 순진를 유지하면 내가 마음에 이러한 전환으로, 몇 가지 문자열 대체물을 구현하고 'E'

로 끝나는 된 처리 thou [a-z]+est 그러나 문제는 상황에 따라 때문에 나머지 일부 & 트림 단지 st에 est을 손질 할 필요가 e로 끝나는 영어 동사에 온다 이 문제를 해결하기위한 빠른 해결책은 무엇입니까? 아마도 가장 신속하고 더러운

0열

1답변

파이썬 파일

내 텍스트 파일 내가이 ('NAME1'와 같은 다른 텍스트 파일에이 파일 저장을 읽고 싶은 이름 1 \ n을 NAME2 \ n을 NAME3 \ 없음과 같이 , 'name2', 'name3') 파이썬에서, 당신은 누구든지 도와주세요.

0열

1답변

Enron 전자 메일 본문에서 "전달 된 메시지"제목 및 원하지 않는 내용을 지우는 방법은 무엇입니까?

나는 Enron 전자 메일의 모든 본문을 하나의 파일에 추가하려고하므로 Stop 단어를 제거하고 NLTK로 문장으로 분할하여이 전자 메일의 텍스트를 처리 할 수 있습니다. 전달 된 메시지와 회신 한 메시지에 문제가 있습니다. 어떻게 치료할 지 모르겠습니다. Well, with the photographer and the band, I would say

2열

2답변

파이썬을 사용하여 큰 텍스트 온라인 읽기

50GB의 텍스트 파일을 읽어야합니다. 그 파일을 가지고 약간의 처리를해야합니다. 원격 서버에서 처리하는 동안 텍스트 파일을 다운로드 할 수 없습니다. Python을 사용하여 URL을 사용하여 파일 내용을 스트리밍하고 한 줄씩 읽을 수 있습니까?

0열

1답변

추가 문자열

내가 link = 'branch=;deps=;date=;rev=;days=1;user=' date = "10.12.2016" re.sub(r'(.*)(date=[^;]*)(.*)','\\1\\2'+date+'\\3',link) 내가 'branch=;deps=;date=10.12.2016;rev=;days=1;user=' 로 출력을 기다리고 있었다