2016-08-12 7 views
0

으로 분석하고 싶습니다. 시장 바구니 분석에서 어떤 항목이 잘 어울리지 않았습니까? 기본적으로 함께있는 항목을 찾지 못하면 대기열에서 빠져 나옵니다. 나는 다양한 속성의 조합으로 인해 레코드 (13 개 속성/열 포함)가 불완전한 상황이 있습니다. 예 : a1, a2 .... a13에 대해서는 입니다. 위의 모든 속성은 값을 가질 수도 있고 그렇지 않을 수도 있습니다. 그러나 값이없는 모든 속성은 레코드가 불완전하게됩니다.시장 바구니 분석의 역수를 R

이 상황에서 불완전 레코드의 조합이 주로 내 레코드 세트에서 발생하는 것을 확인해야합니다. 이 패턴을 아는 것은 우리 팀이 가장주의를 기울여야 할 기록의 우선 순위를 정하는 데 도움이됩니다. Apriori 알고리즘은 사용 가능한 값만 사용하는 것을 볼 수 있지만 발생하지 않는 조합을 분석해야합니다. 나는이 문제가 과거에 풀려 있었음에 틀림 없다고 확신하지만 포럼에서 어떤 힌트도 보지 못했다. 그런 종류의 경험이있는 사람이 있습니까? 아니면 내가 사용해야하는 다른 알고리즘을 제안합니까? 나는이 분석을 위해 R을 사용하고있다. 그리고 총 기록 : 218k

+1

데이터에 적합한 통계 분석 방법을 선택하는 데 도움이 필요하면 [stats.se] 또는 [datascience.se]에 질문을 게시해야합니다. 이것은 정말로 특정한 프로그래밍 질문이 아닙니다. R을 사용한다는 사실은 데이터를 분석하는 적절한 방법을 선택하는 것과 관련이 없습니다. – MrFlick

답변

1

귀하의 명시된 상황을 올바르게 파악하면 데이터 항목을 얻고 싶습니다. 사례의 항목에 값이 있거나 가치가 없거나 연관성이있는 규칙이있는 경우 값이없는 항목이 하나 이상 있고 값이없는 항목 만있는 경우입니다. 이 목적을 위해 Apriori 알고리즘이 훌륭합니다. 그리고 당신은 그것을 뒤집을 필요조차 없습니다. 해결책은 데이터 집합의 서식 내에 있습니다. 값이있는 항목을 제거하고 해당 항목의 이름과 같은 값을 값없이 제공합니다 (예 : a12. 그런 다음 데이터 집합에는 값이없는 항목과 값이없는 항목이 하나 이상있는 경우와 값, 즉 이름으로 식별 할 수있는 항목 만 포함됩니다. 이제 Apriori 알고리즘이 형식이 지정된 데이터 집합에서 빈 항목 집합과 이후에 연관 규칙을 추출 할 수 있습니다. 연관 규칙을 추출하기 위해 다른 알고리즘을 사용해야하는 경우 : 예. FP 성장을 사용하십시오. Apriori 알고리즘보다 빠릅니다.

0

감사합니다. 그 대답은 도움이되었습니다. 각 거래의 모든 항목을 분석해야하며 모든 거래에서 가장 많은 누락 된 조합이 무엇인지 확인해야합니다. 모든 null 값을 상수로 바꾸려고했습니다. Apriori 알고리즘에서 rhs와 같은 상수를 얻기 위해 약간 조정을 했습니까? 그러나 FP 성장 알고리즘이 어떻게 도움이되는지 이해할 수 없었습니다. 설명 할 수 있습니까?

+0

Apriori 및 FP-Growth 알고리즘은 동일한 목표를 공유합니다. 빈번한 항목 집합 및 연관 규칙 추출. 오래된 Apriori 알고리즘은 속도가 느립니다. FP-Growth는 총 2 회의 스캔이 필요한 반면, 처리에는 데이터 세트를 여러 번 스캔해야합니다. (키워드 : 후보 세대 및 FP- 성장 트리) – n01dea