text-mining

    1

    1답변

    특정 헤더로 시작하는 주어진 텍스트의 내용을 추출하려고합니다. Header Text_A blablabla blablablabla Header Text_B blablablablablan blablaa 는이를 위해, 나는 그런 식으로 thepyparsing API를 사용했다 : 나는 위의 헤더 만 입력 텍스트가있을 때 ParserElement.d

    0

    1답변

    RTextTools 패키지를 사용하고 싶습니다. (here에 설명되어 있고 CRAN 설명서에 .txt 파일로 해석 된 여러 문서를 텍스트로 마이닝하는 데 사용됩니다.) read_data()에 문제가 있습니다. ( 폴더의 경로 이름을 소요 read_data 텍스트 파일 및 CSV 라벨 파일 이름 및 교육 값을 읽으려면 GitHub). 텍스트 파일의 내 디렉토

    0

    1답변

    내 자체 데이터 세트에서 스탠포드 강의에서 언급 한 SVD 방법을 재현하고 싶습니다. 강의 슬라이드는 다음과 같다 내 데이터 세트가 생성 CountVectorizer로부터 처리 <13840x13840 sparse matrix of type '<type 'numpy.int64'>' with 597828 stored elements in Compressed

    0

    3답변

    웹 사이트 링크를 다 쳤습니다. 지금까지 텍스트를 다운로드하여 데이터 프레임으로 설정했습니다. 나는 folllowing있다; keywords <- c(credit | model) text_df <- as.data.frame.table(text_df) text_df %>% filter(str_detect(text, keywords)) 신용

    0

    1답변

    내 질문은 R이 URL 링크를 읽을 수있는 것과 관련이 있습니다. 내가 사용하는 예는 설명을위한 것입니다. 다음 웹 페이지를 읽고 싶습니다 (임의로 선택). https://www.mcdb.ucla.edu/faculty 그것은 URL 링크와 교수 이름의 목록을 가지고, 나는 예를 들면 다음과 유사한 웹 페이지를 읽고 각 URL 링크를 액세스하고 특정 키워드에

    3

    1답변

    약 설명을 저장하는 테이블에서 각 항목의 제품 이름, 강도, 제품 수량 및 제약 회사를 식별해야합니다. 목표는 사전 정의 된 구조로 테이블 복사본을 만드는 것입니다. 현재 테이블 : 정규화 테이블 : 는 지금까지 자연 언어 처리의 조금 읽었습니다,하지만 난 다른 접근 방식을 알고 싶어; Regex를 사용하려고 생각했지만 많은 경우가 있습니다. 모든 종류의

    0

    1답변

    R에서 tm-package를 사용하여 문서 용어 행렬을 만들고 있지만, 내 컴퓨터의 단어 중 일부가 프로세스에서 손실 될 수 있습니다. 예를 들어 설명하겠습니다. 의 내가 TM 패키지에서 DocumentTermMatrix()를 사용할 때 나는이 작은 신체 library(tm) crps <- " more hours to my next class bout t

    0

    1답변

    나는 하나의 메인 폴더에 각각 2 개의 pdfs를 포함하는 3000 개의 서브 폴더를 가지고있다. PDF 파일을 텍스트 파일로 변환하는 다음 코드를 작성했습니다. * all.subfolders < - list.dirs ("메인 폴더에 # 경로", full.names = TRUE) 텍스트로 변환 할 수 없습니다 몇 PDF 파일에서 sapply(all.subf

    2

    2답변

    I는 두 개의 데이터 프레임 DF1 가지고 df1 <- c("A large bunch of purple grapes", "large green potato sack", "small red tomatoes", "yellow and black bananas") df1 <- data.frame(df1) DF2 : Word <- c("green", "purp

    1

    1답변

    OpenNLP을 사용하여 nl-personTest.bin 파일에 추가 학습 데이터를 추가하려고합니다. 이제는 추가 트레이닝 데이터를 추가하기 위해 코드를 실행하면 기존 데이터가 제거되고 새 데이터 만 추가된다는 문제가 있습니다. 어떻게하면 트레이닝 데이터를 교체하는 대신 추가 할 수 있습니까? 이 문제를 해결하기 위해 public class TrainNam