unsupervised-learning

    0

    2답변

    수천 개의 위키피디아 자료로 구성된 레이블이없는 데이터 세트가 있습니다. 이 기사는 내용면에서 밀접한 관련이있는 기사 모음으로 그룹화됩니다. 이 세트 중 하나가 주어지면 모든 기사가 속한 공통 주제를 결정하고 싶습니다. 예 : {미적분, 행렬, 정수론} 내가 공통 주제 수학 것을 확인할 수 있습니다 자신의 제목으로 관련 기사의 다음과 같은 설정을 감안할 때

    1

    1답변

    자발적 학습의 아름다움, 신비 및 복잡성의 일부는 사람이 알아낼 수있는 많은 데이터 중에서 정보를 추출한다는 것입니다. 그러나 알고리즘이 올바른지 알 수있는 방법이 있습니까? 예를 들어, 주식 동향을 살펴보고 특정 주식에 대해 약간의 공제를한다고 가정 해 봅시다. 그것이 실제로 어떻게 진행되는지 보지 않고, 그것이 옳았다는 것을 알 수있는 어떤 방법이 있습

    1

    1답변

    정서 분석을 포함하여 일반적으로 텍스트 분류는 다음 두 가지 방법 중 하나로 수행 할 수 있습니다. 1. 충분한 학습 데이터가있는 경우 감독 학습, 2. 사전 레이블이없는 충분한 학습 데이터가없는 경우 감독되지 않은 학습 I texte (리뷰) 만 포함 된 트윗 컬렉션 만 있고 각 twwet은 극성 전나무가 없습니다. 제 질문은 감독되지 않는 학습을 사용하

    0

    1답변

    Carrot2는 다른 문서에서 자체 내보내기의 '클러스터'를 포함하는 XML 입력을 허용합니다. 이제 점진적 클러스터링을 구현하려는 경우, 즉 이전 클러스터와 함께 새 문서를 도입하려는 경우 이전 문서도 입력에 유지해야합니다. 따라서 입력이 선형 적으로 증가합니다. 이 증가/온라인 클러스터링 문제를 해결하기 위하여 추출 클러스터 문서 기능을 각각의 클러스터

    0

    1답변

    데이터 마이닝 개념에 익숙하지 않고 감독 및 감독되지 않은 학습의 차이점을 배우려고합니다. 지금까지 내가 아는 것은 감독자가 라벨이 부착 된 데이터 세트에서 정보를 얻는 것을 의미하고 감독자가 지정하지 않은 데이터를 클러스터링하는 것을 의미합니다. 나는 그들이 어떤 존재인지 이해하지만 실생활에 실제로 적용 할 수는 없습니다 (실시간 질문을하기위한 개념을 실

    0

    1답변

    원격 모니터링을위한 알고리즘 (자연 언어 처리 응용 프로그램 용)을 찾고 있습니다. 하나의 적용 가능한 알고리즘 또는 방법을 나타낼 수 있습니까?

    0

    1답변

    는 내가 요소의 세 가지 유형이있는 경우 자기 조직화지도가 여기 Som_pak-3.1을 만들었습니다, 그들은 다르다. 요소가지도의 다른 부분에없는 이유는 무엇입니까? 왜 "A", "B"와 "C"가 같은 육각형에서 함께 많은 경우입니까? 왜 "B"와 "C"가 육각형에서 홀로 존재하지 않는 이유는 무엇입니까? 미리 감사드립니다.

    -1

    2답변

    엘리먼트 스타일 (fontSize, fontWeight, ...)을 기반으로 한 html 파일에서 제목과 파라 글래시를 추출하는 가장 좋은 datamining 전략은 무엇입니까? 이미 텍스트와 fontSize 속성을 추출하여 csv 파일에 넣었습니다. 이제이 데이터를 분류 (또는 클러스터 화)하는 방법을 알아야만 fontpize가 20px 인 모든 요소를

    0

    1답변

    나는 파일 저장소를 가지고 있습니다. 파일은 사람이 만든 일반 영어 텍스트입니다. 각 파일에는 몇 가지 사건을 설명하는 단락이 거의 없습니다. 이제 각 사람이 다르므로 서로 다른 문법으로 두 가지 이상의 사건을 작성할 수 있습니다. 심지어 같은 사람이라도 다른 문법으로 다른 단어로 사건을 쓰는 경향이 있습니다. 어떻게 유사한 파일을 찾고 클러스터 할 수 있

    3

    1답변

    H2O가 최근에 API에 word2vec를 추가했습니다. 자신이 제공하는 코퍼스에서 자신의 단어 벡터를 쉽게 훈련 할 수 있다는 것은 대단한 것입니다. 큰 데이터와 대형 컴퓨터를 사용하면 Google이나 H2O.ai와 같은 소프트웨어 공급 업체가 H2O의 많은 최종 사용자는 아니지만 네트워크 대역폭으로 인해 액세스 할 수있는 유형의 큰 가능성이 있습니다.