두 개의 파일이 겹쳐서 정확한 일치 및 부분 일치를 기반으로 결과를 검색 할 수 있습니다. 예를 들어 명확하게 알 수 있습니다.R, awk, sed : 빈을 병합하고 중앙 중첩을 출력 한 다음 중점 + 이웃 중첩을 출력합니다.
FILEA :
chr1 200 400 E1
chr1 400 600 E2
chr1 600 800 E3
chr2 200 300 E4
fileB :
chr1 100 250 TF1 G1
chr1 250 650 TF2 G2
chr1 450 850 TF3 G3
출력 :이 단계 Uptil
chr1 100 250 TF1 G1 chr1 200 400 E1
chr1 250 650 TF2 G2 chr1 200 400 E1
chr1 250 650 TF2 G2 chr1 400 600 E2
chr1 250 650 TF2 G2 chr1 600 800 E3
chr1 450 850 TF3 G3 chr1 400 600 E2
chr1 450 850 TF3 G3 chr1 600 800 E3
내가 일을 할 수 있지만, 다음 단계는 당신의 도움을 필요로하는 것입니다. 여기
I는 두 경기 (예를 들면 5 행이 있다면 제 만 (예를 들어, 출력 파일의 1 행에 관계없이 오버랩 크기) 1 개 매치가있는 그 라인
- 서브 세트 할 및 6 출력) 다음 중첩이 가장 큰 '가운데 행'(행 6과 행 5가 겹침 인 행 5와 비교하여 200이 중복 됨)
- 3 개 이상의 일치가있는 경우 (예 : 행 3은 완전 중첩되지만 행 2와 4는 각각 부분 중첩, 150과 50을 갖는 이웃 행입니다. 그런 다음 반환 만하고 싶습니다. 중앙 행은이 경우 행 3이됩니다.
그 후, 나는 실제로 사용 데이터 세트에서이 파일 B의 한 빈 파일의 A.
5 개 또는 7 쓰레기통의 최대 겹칠 일이 발생할 수 있기 때문에, 그래서 첫 번째 이웃 한 후 2 neigbors 등을 검색 할그래서 기본적으로 내가 원하는 것은 먼저 모든 중첩 된 중첩을 얻은 다음 중앙 + 1 번째 이웃을 선택한 다음 중앙 + 2 번째 이웃을 얻는 것입니다. 이 근거에 따라
는, 내 첫 번째 결과는 다음과 같습니다
이결과 1 (중앙 겹치) :
chr1 100 250 TF1 G1 chr1 200 400 E1
chr1 250 650 TF2 G2 chr1 400 600 E2
chr1 450 850 TF3 G3 chr1 600 800 E3
Result2 (중앙 + 1 이웃) :
chr1 100 250 TF1 G1 chr1 200 400 E1
chr1 250 650 TF2 G2 chr1 200 400 E1
chr1 250 650 TF2 G2 chr1 400 600 E2
chr1 250 650 TF2 G2 chr1 600 800 E3
chr1 450 850 TF3 G3 chr1 400 600 E2
chr1 450 850 TF3 G3 chr1 600 800 E3
가능한 경우를, 나는 인접한 행만 검색하지만 중앙 행은 검색하지 않는 것이 좋습니다.
도움이 될 것입니다. 고맙습니다.
나를 도와 주실 시간을내어 주셔서 대단히 감사합니다. – Newbie
여러분을 환영합니다. 앞으로 지불... – karakfa