k-means

    0

    1답변

    여러 상점의 제품 이름 인 문자열 배열이 있습니다. 이제 목록에있는 상점과 상관없이 동일한 제품을 포함하는 클러스터를 얻기 위해 해당 클러스터를 배열해야합니다. 예를 들어 는 : data = ["Laptop Asus xd45jkl", "Laptop Acer d3000", "Notebooh Hp hxsss", "Laptop A

    2

    1답변

    많은 데이터가 있으며 카디널리티 [20k, 200k +]의 파티션으로 실험했습니다. from pyspark.mllib.clustering import KMeans, KMeansModel C0 = KMeans.train(first, 8192, initializationMode='random', maxIterations=10, seed=None) C0 =

    0

    1답변

    고유 한 제품 이름 약 300,000 개의 데이터 프레임이 있으며 유사한 이름을 함께 클러스터하는 것을 의미합니다. sklearn의 tfidfvectorizer를 사용하여 이름을 벡터화하고 tf-idf 행렬로 변환했습니다. 다음으로 나는 5 ~ 25 범위의 클러스터 수를 갖는 tf-idf 행렬에 대해 k 개의 수단을 사용했습니다. 그런 다음 클러스터의 각

    0

    1답변

    클러스터 의미 K에서 반복해야합니까 얼마나 많은 시간을 확인할 수 있습니다 내 프로젝트를 세 번 실행하면 각 플롯마다 매번 차이점이 생기고 중심점과 데이터 포인트 위치가 변경됩니다. 토지 크기는 100 개입니다. 예 우선 런 > 중심 위치 제 실행> 중심 위치 (X) 3이고, Y 2 제 실행> 중심 위치는, X 2, Y 6 제 실행> 중심 위치 (X) (5

    0

    1답변

    Spark에서 특정 클러스터에 속한 데이터 포인트를 검색하려고합니다. 다음 코드에서는 데이터가 작성되었지만 실제로 클러스터 된 예측값을 얻습니다. 나는 사람들을 얻는 방법 클러스터 번호 (100)에 속하는 모든 데이터 포인트를 가지고 싶습니다 지금 import numpy as np # Example data flight_routes = np.array(

    2

    1답변

    두 가지 기능 - 판매 및 pp가있는 주별 데이터 세트가 있습니다.이 기능을 기반으로 일일이 가장 유사한 거래 패턴으로 그룹화하는 것이 이상적입니다. . 내가 가진 데이터로이를 수행 할 수 있습니까? 내 이해 기능은 열이며 행은 클러스터를 기반으로 레이블이 할당됩니다 무엇입니까, 그러나 나는 행이나 열에 있어야하는지 모르겠 그래서 몇 주를 고려해야합니까?

    1

    1답변

    통제가없는 환경에서 Kmeans()을 사용하고 있으며 < 1 개월 후에 포기합니다. 스파크 1.6.2. 설치되어 있습니다. 출발하기 전에 '그들'에게 Spark 2.0.0으로 업그레이드하라는 대가를 지불해야합니까? 다시 말해서, Spark 2.0.0은 중요한 개선점을 소개합니다 에 관해서는 Spark Mllib KMeans()? 필자의 경우 품질은 속도보다

    0

    2답변

    파이썬에서 Excel 일치() 함수를 할 수있는 방법이 있나요, 같은 것을 : 나는에서 오프를 잘라 특징이 같은 그래프에서 ... ... y = 90, 해당 x 값이 가장 가까운 것을 인쇄하고 싶습니다. 내 조사에 따르면 값/대답은 4 여야하지만 어떻게하면이 변수를 인쇄하거나 변수에 저장할 수 있습니까? In: print(bss/tss*100) Out:

    3

    1답변

    이곳은 새로운 기능으로 도움을 받으 hope습니다. 그러나 저는 R과의 통합을 암시하는 새로운 기능을 사용하여 새로운 Microsoft SQL Server Management Studio (2016) 작업을하고 있습니다. 우선 목표는 K- x 및 y 열을 사용하여 클러스터링을 의미합니다. 문제는 제가 온라인 문서를 제 경우로 거부 할 수 없기 때문에 중간에

    1

    2답변

    나는 각각에 대해 위도와 경도가있는 수천 개의 길이가 N 인 목록을 가지고 있습니다. 난 (N이 홀수 인 경우, 하나의 3 것) 각각 함유하는 2 점, 그룹 N/2 그룹들로 이러한 점 싶다. 이 그룹의 목적은 2 점 사이의 거리를 최소화하는 것이다. 각 그룹에 대한 오차를 제곱 된 점 사이의 거리로 생각할 수 있습니다. 그리고 모든 그룹에 대한 오류의 합계