2010-01-12 5 views
0

MICROARAY DATA 용 데이터 마이닝 소프트웨어 인 WEKA에서 기존 데이터 세트에서 중복 튜플을 제거하려면 어떻게해야합니까? 중복을 제거하는 코드는 JAVA에 있어야합니다.어떻게하면 자바 프로그래밍을 사용하여 microarray 데이터에서 중복 튜플을 제거합니까?

즉는 데이터 세트는 여기

H,A,X,1,3,1,1,1,1,1,0,0,0 
D,R,O,1,3,1,1,2,1,1,0,0,0 
H,A,X,1,3,1,1,1,1,1,0,0,0 
C,S,O,1,3,1,1,2,1,1,0,0,0 
H,A,X,1,3,1,1,1,1,1,0,0,0 

튜플 1,4,5 중복 데이터가있는 등이 포함되어 있습니다.

코드는

H,A,X,1,3,1,1,1,1,1,0,0,0 
D,R,O,1,3,1,1,2,1,1,0,0,0 
C,S,O,1,3,1,1,2,1,1,0,0,0 

답변

2

당신은 Set 같은 java.util.HashSet로를 구현하는 클래스 중 하나를 사용할 수 있습니다 ... 다음 REDUNDANCY REMOVED 데이터 세트를 반환해야합니다.

데이터 집합을 집합에로드 한 다음 Set.toArray() 메서드를 통해 배열로 변환하거나 집합을 반복하여 추출 할 수 있습니다. 귀하의 제안에 추가

  
for (Tuple tuple: tupleList) {  
    tupleSet.add(tuple);  
} 

// now all of your tuples are unique 
for (Tuple tuple: tupleSet) {  
    System.out.println("tuple: " + tuple); 
} 
+3

Set<Tuple> tupleSet = new HashSet<Tuple>();

당신은 또한 등호와 튜플의 해시 코드 메소드를 구현해야합니다. 그렇지 않으면 중복 계산은 Tuple 객체 참조에만 기반을 둡니다. – LiorH