R 바구니 분석을 사용하여 arules 패키지를하지만, 주문 조합을 중복R 바구니 분석의 고유 주문 번호와 패키지를 arules 사용하지만, 중복 주문 조합을 고유 주문 번호와
나는를 사용하여 바구니 분석을 할 노력하고있어 그냥 학습 R. arules 꾸러미 (그러나 나는 다른 어떤 꾸러미 제안에도 완전히 열리다!) 6 개의 다른 항목 타입의 가능한 모든 조합을 비교하기 위해 구입했다.
내 원래 데이터 세트는 다음과 같이 보았다 :
OrderNo, ItemType, ItemCount
111, Health, 1
111, Leisure, 2
111, Sports, 1
222, Health, 3
333, Food, 7
333, Clothing, 1
444, Clothing, 2
444, Health, 1
444, Accessories, 2
합니다. . .
목록에는 약 3,000 회의 관측이 있습니다.
OrderNo, Accessories, Clothing, Food, Health, Leisure, Sports
111, 0, 0, 0, 1, 2, 1
222, 0, 0, 0, 3, 0, 0
333, 0, 1, 7, 0 , 0, 0
444, 2, 2, 0, 1, 0, 0
. . .
나는 다음과 같은 명령을 (사용하여 트랜잭션에 읽으려고 할 때마다하고 만 시도 :
나는 특정 ItemType은의 수를 포함하는 각각의 고유 한 주문에 대한 하나 개의 행을 포함하는 행렬에 데이터를 붕괴 그것의 변형) : asMethod (객체 오류) : 중복 된 항목 트랜잭션 목록을 강요 할 수tr <- read.transactions("dataset.csv", rm.duplicates=FALSE, format="basket", sep=",")
나는 오류 메시지가 표시됩니다.
나는 이것이 3,000 회의 관찰을 가지고 필연적으로 특정 조합이 두 번 이상 나타날 것이라고 가정합니다. 즉, 한 명 이상의 사람이 의류 한 장만 구입하고 다른 것은 아무것도 아닙니다 : OrderNo, 0, 1 , 0, 0, 0, 0). 고유 한 조합 수에 따라 데이터 세트를 축소 할 수는 있지만, 그렇게하면 가장 빈번한 조합을 표시 할 가중치가 없을 것입니다.
나는 format = "basket"을 사용하면 동일한 항목 조합을 포함하는 여러 주문을 설명 할 수 있다고 생각했지만 분명히 그렇지 않습니다. 나는 너무 길다. 내가 읽은 모든 문서는 이것이 가능함을 의미하지만 문제에 접근하는 방법에 대한 예제 나 조언을 찾을 수 없습니다.
어떤 조언을 주시면 감사하겠습니다. 내 머리가 이쪽으로 돌고있다.
추가 정보 : 내 최종 결과를 위해, 나는 상위 5 대 구매 조합의 가장 중요한 조합을 얻으려고합니다. 그게 도움이되는지 나는 모른다.
케어를 게시이 발견 될 것인가? http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example –