에서 지원하는 패턴 찾기 (여기의 기본 zaki
데이터 집합을 사용하자). 데이터 세트에서 빈번한 서브 시퀀스를 찾으려면 SPADE (cspade
함수)를 사용합니다.R의 arulesSequences 내가 시간 정보와 트랜잭션 데이터 집합을 가지고 내가 <p>R</p>에 <code>arulesSequences</code> 라이브러리에 문제가 있어요 시퀀스
library(arulesSequences)
data(zaki)
frequent_sequences <- cspade(zaki, parameter=list(support=0.5))
자, 내가 원하는 것은 지원하는 자주 시퀀스입니다 (각 custumer에 대한 즉) 각 시퀀스에 대해 찾을 수 있습니다. 많은 성공을 거두지 않고 %in%
과 subset
의 다양한 조합을 시도했습니다. 두 번째 custumer에 대한 예를 들어
inspect(zaki[[email protected]$sequenceID==2])
은 다음과 같습니다 전체 데이터 세트
inspect(frequent_sequences)
에서
items sequenceID eventID SIZE
5 {A,B,F} 2 15 3
6 {E} 2 20 1
빈번한 서열은 다음과 같습니다 내가보고 싶은 무엇
items support
1 <{A}> 1.00
2 <{B}> 1.00
3 <{D}> 0.50
4 <{F}> 1.00
5 <{A, F}> 0.75
6 <{B, F}> 1.00
7 <{D}, {F}> 0.50
8 <{D}, {B, F}> 0.50
9 <{A, B, F}> 0.75
10 <{A, B}> 0.75
11 <{D}, {B}> 0.50
12 <{B}, {A}> 0.50
13 <{D}, {A}> 0.50
14 <{F}, {A}> 0.50
15 <{D}, {F}, {A}> 0.50
16 <{B, F}, {A}> 0.50
17 <{D}, {B, F}, {A}> 0.50
18 <{D}, {B}, {A}> 0.50
가 있다는 것입니다 고객 2는 빈번한 시퀀스 1, 2, 4, 5, 6, 9 및 10을 지원하지만 다른 시퀀스는 지원하지 않습니다.
역순으로 정보를 얻을 수도 있습니다. 즉, 빈번한 서브 시퀀스를 지원하는 기본 시퀀스는 무엇입니까? R은 빈번한 시퀀스의 지원을 계산하기 위해이 정보를 사용하기 때문에이 정보를 어떻게 든 알 수 있습니다.
이 용이해야한다 나에게 보인다 (그리고 아마도!)하지만 난 그것을 알아낼 수 없습니다 ...
어떤 생각?