레이블이 지정된 학습 데이터가 필요없이 사용자 정의 제어 어휘로 명명 된 엔티티 인식 (NER)을 수행 할 수있는 Java 라이브러리를 찾고 있습니다. SE에서 검색해 보았지만 대부분의 질문은 다소 특이하지 않습니다. 는 다음과 같은 사용 사례를 고려 편집기가 CMS (약 500 단어)에 기사를 입력합니다. 텍스트는 특정 도메인의 엔티티에 대한 참조를 (일
통화에 대한 일부 금융 거래 모델의 예측 가능성을 높이기 위해 정서 정보 사용에 관한 논문을 쓸 계획입니다. 정서 데이터는 "EUR.USD"와 같은 일부 키워드를 포함하는 트위터 스레드 여야합니다. 그리고 나는 정서를 확인하기 위해 몇 가지 감정적 인 말을 걸러 낼 것이다. 간단한 생각. 그런 다음 우리는 여기에 감정의 정도와 EUR.USD의 움직임 사이의
우리는 Java 프로그램 내부에서 WEKA 분류자를 구현하려고합니다. 지금까지는 모든 것이 잘 작동하지만 Weka GUI의 트레이닝 세트에서 분류자를 만들 때 분류 정확도를 높이기 위해 StringToWordVector IDF 변환을 사용했습니다. 새 인스턴스의 Java 내에서 어떻게 인스턴스를 분류 자에 전달하기 전에 새 인스턴스의 각 토큰 값을 설정하기
지원 벡터 머신 (SVM)을 사용하여 문서 분류를하려고합니다. 내가 가지고있는 문서는 이메일 모음입니다. 나는 약 3000 개의 문서를 SVM 분류자를 훈련시키고 약 700 개의 분류가 필요한 시험 문서 세트를 가지고있다. 처음에는 이진 DocumentTermMatrix를 SVM 교육을위한 입력으로 사용했습니다. 테스트 데이터로 분류 할 때 약 81 %의
문자열 목록이 있습니다. (각 GB 당 4-5 개의 큰 파일에 흩어져있는 ID 및 문자열의 꽤 큰 목록). 이러한 문자열은 다음과 같이 지정됩니다 : 1, 안녕하세요 2, 안녕 U 어떻게 r에? 2, 어떻게 되나요? 3 (여기서, 3, 이것은 무엇을 의미 하는가가 가 지금은 이러한 문자열에 대한 텍스트 마이닝을 수행 할 나는 다음과 같은 방법으로 문자열을
나는, ldiff 파일에서이 같은 일부 라인을 가지고 dn: cn=dkalland_directs_ww,cn=org_groups,cn=beehive_groups,cn=groups,dc=oracle
,dc=com
businesscategory: open
cn: dkalland_directs_ww
description: Directs Group for [
웹에서 일부 텍스트를 마이닝하는 응용 프로그램을 만들려고하고 있지만 텍스트 마이닝을 수행하는 가장 좋은 방법이 무엇인지 잘 모릅니다. 이 질문에서 내가 원하는 것은 텍스트 마이닝을 수행하고 색인 생성이 아닌 문서에서 정보 검색을 수행하는 데 가장 많이 사용되는 기술/알고리즘이 무엇인지 알고있는 것입니다.
R에서 k-means clustering에 관한 질문이 있습니다. 사실이 모든 것을이 article에 따라 수행하고 있습니다. 모든 것은 tm 패키지의 예제를 기반으로하므로 데이터 가져 오기가 필요하지 않습니다. acq에는 50 개의 문서와 20 개의 문서가 있습니다. library(tm)
data("acq")
data("crude")
ws <- c(
WEKA에서 생성 된 ARFF 파일에 저장된 양수 또는 음수로 분류 된 짧은 메시지 모음이 있습니다. 이 데이터를 분류 및 처리 목적으로 RapidMiner로 이동하고 싶습니다. RapidMiner에서 완전히 새로운 초보자는 누구나 이러한 메시지에 대한 분류자를 만드는 방법에 대한 예제가 있습니다. 메시지는 다음 파일 형식으로되어 있습니다. "MSG 1 T
WordNet을 사용하여 기본 용어 집합에서 유사한 용어 모음집을 찾습니다. 예를 들어 , '실망' 단어 - 잠재적 동의어가 될 수있다 : daunted, glum, deterred, pessimistic. 나는 또한 다음과 같은 잠재적 인 바이 그램을 식별하고 싶었습니다. beat down, put off, caved in 등 Java 또는 Python을