레이블이없는 공백으로 구분 된 파일에있는 데이터 집합에서 주제 모델링을 수행하려고합니다. 말렛이 모든 토큰을 적재 할 수는 없습니다. 나는 리눅스와 맥에서 버전 2.0.8을 사용하고있다. 1 2 3 4 5말렛이 레이블이없는 라인에서 모든 토큰을로드하는 방법?
그럼
망치 임포트 파일 --token 정규식 [0 달렸다 문제에 대한 시험과
는, I는 하나 개의 라인을 가진 파일을 생성 -9] + --keep 시퀀스 사실 --label 0 --input testdata로 --output testLoaded 내가 4 토큰을 얻어야한다, 그러나 나는 단지 3를 얻을 을 testLoaded --input 망치 기차 - 주제 : ,536,데이터가로드되었습니다. 최대 토큰 : 3 개 총 토큰 : 나는 --data 플래그 사용하려고하면 3
그것은 심지어 악화 (같은 결과를 내가 사용 여부 및 --label 0 또는 그 자체 --data 2)
말렛 가져 오기 파일 --token-regex [0-9] + --keep-sequence true - 레이블 0 - 데이터 2 - 입력 된 testData - 출력 testLoaded2 말렛 기차 - 주제 - 입력 testLoaded2
데이터가로드되었습니다. 최대 토큰 : 1 개 총 토큰 : 그래서 중 1
나는 첫 번째 토큰을 잃고, 또는 나는 단지이 나중에 출력에 나타나고있다 (첫 번째 토큰을 얻을, 그래서 나는 그 행의 나머지를로드하지 압니다 후자의 경우 단일 토큰으로 사용).