text-mining

1열

1답변

특정 헤더로 시작하는 주어진 텍스트의 내용을 추출하려고합니다. Header Text_A blablabla blablablabla Header Text_B blablablablablan blablaa 는이를 위해, 나는 그런 식으로 thepyparsing API를 사용했다 : 나는 위의 헤더 만 입력 텍스트가있을 때 ParserElement.d

0열

1답변

.txt 파일을 read_data (RTextTools)가있는 데이터 프레임에 저장합니다. CSV 참조로 오류가 발생했습니다.

RTextTools 패키지를 사용하고 싶습니다. (here에 설명되어 있고 CRAN 설명서에 .txt 파일로 해석 된 여러 문서를 텍스트로 마이닝하는 데 사용됩니다.) read_data()에 문제가 있습니다. ( 폴더의 경로 이름을 소요 read_data 텍스트 파일 및 CSV 라벨 파일 이름 및 교육 값을 읽으려면 GitHub). 텍스트 파일의 내 디렉토

0열

1답변

스파 스 대칭 행렬에서 SVD를 수행 할 때 파이썬 커널이 죽었습니다.

내 자체 데이터 세트에서 스탠포드 강의에서 언급 한 SVD 방법을 재현하고 싶습니다. 강의 슬라이드는 다음과 같다 내 데이터 세트가 생성 CountVectorizer로부터 처리 <13840x13840 sparse matrix of type '<type 'numpy.int64'>' with 597828 stored elements in Compressed

0열

3답변

문자열의 값을 | 또는 운영자

웹 사이트 링크를 다 쳤습니다. 지금까지 텍스트를 다운로드하여 데이터 프레임으로 설정했습니다. 나는 folllowing있다; keywords <- c(credit | model) text_df <- as.data.frame.table(text_df) text_df %>% filter(str_detect(text, keywords)) 신용

0열

1답변

하나의 URL에서 다른 URL로 긁어 모으기 R

내 질문은 R이 URL 링크를 읽을 수있는 것과 관련이 있습니다. 내가 사용하는 예는 설명을위한 것입니다. 다음 웹 페이지를 읽고 싶습니다 (임의로 선택). https://www.mcdb.ucla.edu/faculty 그것은 URL 링크와 교수 이름의 목록을 가지고, 나는 예를 들면 다음과 유사한 웹 페이지를 읽고 각 URL 링크를 액세스하고 특정 키워드에

3열

1답변

텍스트 내부의 패턴을 식별하고 분류하는 방법

약 설명을 저장하는 테이블에서 각 항목의 제품 이름, 강도, 제품 수량 및 제약 회사를 식별해야합니다. 목표는 사전 정의 된 구조로 테이블 복사본을 만드는 것입니다. 현재 테이블 : 정규화 테이블 : 는 지금까지 자연 언어 처리의 조금 읽었습니다,하지만 난 다른 접근 방식을 알고 싶어; Regex를 사용하려고 생각했지만 많은 경우가 있습니다. 모든 종류의

0열

1답변

tm 패키지의 DocumentTermMatrix가 모든 단어를 반환하지 않습니다.

R에서 tm-package를 사용하여 문서 용어 행렬을 만들고 있지만, 내 컴퓨터의 단어 중 일부가 프로세스에서 손실 될 수 있습니다. 예를 들어 설명하겠습니다. 의 내가 TM 패키지에서 DocumentTermMatrix()를 사용할 때 나는이 작은 신체 library(tm) crps <- " more hours to my next class bout t

0열

1답변

PDF를 텍스트 파일로 변환

나는 하나의 메인 폴더에 각각 2 개의 pdfs를 포함하는 3000 개의 서브 폴더를 가지고있다. PDF 파일을 텍스트 파일로 변환하는 다음 코드를 작성했습니다. * all.subfolders < - list.dirs ("메인 폴더에 # 경로", full.names = TRUE) 텍스트로 변환 할 수 없습니다 몇 PDF 파일에서 sapply(all.subf

2열

2답변

정합 최고 dataframe 열 R의 텍스트 단어 순위

I는 두 개의 데이터 프레임 DF1 가지고 df1 <- c("A large bunch of purple grapes", "large green potato sack", "small red tomatoes", "yellow and black bananas") df1 <- data.frame(df1) DF2 : Word <- c("green", "purp

1열

1답변

기존 모델 (bin 파일)에 학습 데이터 추가

OpenNLP을 사용하여 nl-personTest.bin 파일에 추가 학습 데이터를 추가하려고합니다. 이제는 추가 트레이닝 데이터를 추가하기 위해 코드를 실행하면 기존 데이터가 제거되고 새 데이터 만 추가된다는 문제가 있습니다. 어떻게하면 트레이닝 데이터를 교체하는 대신 추가 할 수 있습니까? 이 문제를 해결하기 위해 public class TrainNam