text-mining

1열

1답변

python에서 유사도 전파를 사용하여 word2vec 벡터 클러스터링 (sklearn)

친화도 전파를 사용하여 내 word2vec 클러스터를 클러스터링하고 클러스터 중심 단어를 가져 오려고합니다. 현재 코드는 다음과 같습니다. 나는 300 word2vec에게 숨겨진 레이어의 차원을 의미하고, 77 내 어휘의 크기가 알고있는 것처럼 ValueError: S must be a square array (shape=(77, 300)) : model

2열

2답변

R : 찾아보기 테이블을 사용하여 데이터 프레임의 하위 문자열 바꾸기

일련의 문자열을 포함하는 데이터 프레임이 있는데 그 중 일부는 하나의 "의사 단어"로 압축하려는 두 단어 구문을 포함합니다. 이 예제에서 "united kingdom", "saudi arabia"및 "european union"은 나에게 중요한 문구입니다. 나는 그래서 "saudiarabia"와 함께 "unitedkingdom", "사우디 아라비아"와 "영

0열

1답변

텍스트 문서를 텐서 플로우 형식의 tf.data로 순차적으로 변환합니다.

텍스트 코퍼스에는 각 문서가 대략 80 줄 정도 인 50 개의 텍스트 문서가 있습니다. 나는 텐서 플로우의 입력으로 내 코퍼스를 먹이고 싶지만 시스템이 각 문서를 읽을 때 각 문서를 배치하고 싶다. 실제로 Tf.Data를 사용하여 원하는 이미지에 사용되는 TfRecord와 동일하게 각 문서를 순차적으로 읽으려는 내 코퍼스에 배치합니다. 이 문제를 어떻게 해

0열

1답변

dtm에서 문서 당 빈도별로 상위 피쳐 추출 R

나는 dtm을 가지고 있으며 문서 용어 행렬에서 각 문서의 빈도별로 상위 5 개 용어를 추출하려고합니다. 은 내가 TM 패키지 Terms Docs aaaa aac abrt abused accept accepted 1 0 0 0 0 0 0 2 0 0 0 0 0 0 3 0 0 0 0 0 0 4 0 0 0 0 0 0 5 0 0 0 0 0 0

0열

1답변

러시아어/키릴 문자로 센티멘트 분석 텍스트 분석

이것은 놀라운 리소스입니다. 나는 플랫폼에 얼마나 관대 한 기여자가 있는지를 믿을 수 없다. 러시아어/키릴 자모어를 사용하여 텍스트 분석/감정 분석을 다루는 데 대한 조언에 감사드립니다. Syuzhet이 내 선호하는 도구입니다. 8 가지 감정뿐만 아니라 음수 및 양극성에 대한 감정을 얻을 수있는 기회가 뛰어납니다. 그러나, 나는 그것이 키릴 어를 지원한다고

0열

1답변

DTM의 상위 기능 찾기 (동일한 ID의 여러 문서 포함)

패키지 tm을 사용 중입니다. 두 개의 열이있는 데이터 프레임이 있는데 첫 번째 열은 ID이고 seocnd 열은 텍스트입니다. 데이터 프레임은 다음과 같습니다. Id Text 13456 Hi, Good morning 13457 How are you? 13456 May I know who I am speaking to? 13456 Hi, Good e

0열

1답변

큰 문서 용어 문서 행렬을 행렬로 변환

큰 문서 행렬이 있습니다. (6 개 요소, 44.3 Mb) 매트릭스로 변환해야하지만이를 시도 할 때 "100GB를 할당 할 수 없습니다"라는 마법 같은 오류 메시지가 나타납니다. 이 변환을 청크로 수행 할 수있는 패키지/라이브러리가 있습니까? 나는 ff와 bigmemory를 시도했지만 DTM에서 Matrix 로의 변환을 허용하지 않는 것으로 보입니다.

1열

3답변

다른 문자 벡터를 사용하여 특정 문자 벡터 값 찾기 R

다른 문자 벡터를 사용하여 문자 벡터를 스캔하는 방법을 찾고 있습니다. 나는 이미 이렇게 많은 시간을 쏟아 부었지만, 제대로 할 수없는 것처럼 보였다. 내가하려는 일을하는 기능을 찾을 수 없습니다. 하지만이 가 그래서 나는 다음과 같은 벡터가 있다고 가정 해 봅시다 해결하는 쉬운 방법이있을거야 : 한편 c <- c("bread", "milk", "oven"

0열

1답변

R의 텍스트 마이닝 | 메모리 관리

나는 160 메가 바이트의 텍스트 파일을 사용하고 데이터 마이닝을하고 있지만 일단 단어 빈도를 알기 위해 행렬로 변환하면 너무 많은 메모리가 필요하다. 누군가가 나를 도와 줄 수있다. > dtm <- DocumentTermMatrix(clean) > dtm <<DocumentTermMatrix (documents: 472029, terms: 171548

0열

2답변

Count AGENDA- 텍스트 마이닝 당 페이지 수

AGENDA ITEM 당 페이지 수를 계산해야합니다. 필자는 pdf 문서의 텍스트를 데이터 프레임으로 추출했습니다. 기본적으로이 데이터 프레임의 한 행에는 한 페이지의 텍스트가 들어 있습니다. 이것은 나의 데이터가 같은 모습입니다 : 의제 TEXT (동일 행)에서 mydf <- data.frame(text = c("AGENDA ITEM 1 4",