두 개의 서로 다른 파일을 비교하고 중복되는 데이터를 추출하는 방법은 무엇입니까?

저는 프로그래밍의 세계에 새로 온 사람입니다. 그래서 쉽거나 분명한 질문을한다면 용서해주십시오. 정말 많은 도움이 필요합니다.두 개의 서로 다른 파일을 비교하고 중복되는 데이터를 추출하는 방법은 무엇입니까?

현재 두 세트의 데이터가 있습니다.

첫 번째는이 (파일 1을 호출)과 같습니다

이 두 번째이 ("파일 2"를 호출)처럼 보이는

GeneName 
TAF13 
ZC3H6 
RAC3 
MED16 
FAT3 
SCRG1 
GRM3 
DHX16 
LRRN4CL 
STMN4 
PCDHGA11 
RPLP1 
WASF1 
KATNAL1 
FTL1 
D8ERTD738E

가 :

이

GeneName Chr Start End SumOfMerge 67_1 67_2 67_3 68_1 68_2 68_3 69_1 69_2 69_3 70_1 70_2 70_3 71_1 71_2 71_3 72_1 72_2 72_3 73_1 73_2 73_3  
LOC100288069 chr1 713126 714875 13 NA nPk1 nPk1 NA nPk1 nPk1 NA NA nPk1 NA nPk2 nPk1 NA nPk1 nPk1 NA nPk1 nPk1 NA nPk1 nPk1  
FAM87B chr1 752176 752900 20 nPk2 nPk3 nPk2 nPk2 nPk3 nPk3 nPk2 nPk3 nPk3 nPk2 nPk4 NA nPk3 nPk3 nPk3 nPk3 nPk3 nPk2 nPk2 nPk3 nPk3  
LINC00115 chr1 761026 763300 20 nPk7 nPk6 nPk3 nPk7 nPk5 nPk4 nPk7 nPk8 nPk5 NA nPk5 nPk3 nPk8 nPk6 nPk4 nPk7 nPk7 nPk3 nPk8 nPk7 nPk4  
SAMD11 chr1 858401 862175 20 nPk16 NA nPk10 nPk16 nPk13 nPk13|nPk14 nPk16 nPk16 nPk13 nPk14 nPk13 NA nPk18 nPk13 nPk11|nPk12 nPk17 NA nPk12 nPk17 nPk16 nPk11 
KLHL17|NOC2L chr1 892751 897375 21 nPk23 nPk14 nPk15 nPk24|nPk25 NA nPk18 nPk25 nPk20 nPk18 nPk24 nPk18 nPk10 nPk27|nPk28 nPk17 NA nPk25 nPk18 nPk18 nPk24 nPk20 nPk16 
HES4 chr1 934201 937725 14 nPk30 nPk19 nPk19 NA nPk24 nPk22 nPk33 nPk25 nPk22 NA NA NA NA NA nPk23 nPk32 nPk23 nPk22 NA nPk25 nPk20 
ISG15 chr1 948076 948750 7 nPk32 NA NA nPk33 NA NA nPk36 NA NA nPk35 NA NA nPk37 NA NA nPk34 NA NA nPk36 NA NA 
AGRN chr1 954376 954875 21 nPk34 nPk22 nPk21 nPk36 nPk27 nPk24 nPk38 nPk28 nPk24 nPk37 nPk24 nPk16 nPk39 nPk24 nPk25 nPk36 nPk26 nPk24 nPk38 nPk28 nPk22 
AGRN chr1 954951 955275 11 NA NA nPk22 NA nPk28 nPk25 NA nPk29 nPk25 NA nPk25 nPk17 NA NA nPk26 NA nPk27 nPk25 NA NA nPk23 
C1orf159 chr1 1051051 1052500 21 nPk53 nPk38 nPk37 nPk56 nPk42 nPk39 nPk60 nPk42 nPk41 nPk54 nPk38 nPk25 nPk55 nPk40 nPk40 nPk57 nPk45 nPk38 nPk55 nPk50 nPk38 
LINC01342 chr1 1070301 1073175 2 NA NA NA NA NA NA NA NA NA NA nPk40 nPk28 NA NA NA NA NA NA NA NA NA 
TTLL10 chr1 1108776 1109450 1 NA NA NA NA NA NA NA NA NA nPk65 Na NA NA NA NA NA NA NA NA NA NA 
TNFRSF4 chr1 1150276 1150750 2 NA NA NA NA NA NA NA NA NA nPk72 NA NA nPk72 NA NA NA NA NA NA NA NA 
SDF4 chr1 1165926 1167475 4 NA NA NA NA NA nPk48 NA NA NA NA NA NA NA NA nPk50 NA NA nPk45 NA NA nPk46

두 번째 경우에 저를 용서해주세요 데이터가 실제로 지저분 해졌습니다. 실제로는 탭 공간으로 구분 된 26 개의 열이있는 데이터입니다.

제 목표는 file1과 file2를 첫 번째 열 "GeneName"과 비교하고 file2의 줄을 새 파일 인 file3으로 추출하는 것입니다.

file3은 file2와 같아야합니다. 단, file1과 동일한 GeneName을 가진 행만 포함해야합니다.

현재 comm과 join 및 grep -f으로 시도했지만 원하는 해결책은 없습니다. 내 생각에 grep이 작업을 수행하기에 충분할 수도 있지만 올바른 옵션을 모르겠습니다. 이 문제에 대한 다른 가능한 해결책이 있다면 나와 공유하십시오. 시간 내 주셔서 감사합니다!

출처

2016-07-08 D Lee

이것은 매우 쉽게 파이썬과 함께 할 것입니다. 어떤 경험이 있습니까? 아니면 받아 들여질 수 있습니까? – Alden

@Alden 익숙하지는 않지만 코드를 이해하기 위해 최선을 다할 수 있습니다. 어쨌든 고마워! :) –

작은 파이썬 코드에 대해 어떻게 생각하세요? 파일이 다음 py.py로 저장되어있는 경우

#!/usr/bin/python 

import sys, re 

lookup = {} 
for line in open(sys.argv[1]).readlines(): 
    lookup[line.rstrip()] = True 

for line in open(sys.argv[2]).readlines(): 
    s = re.split('[\t ]+', line) 
    if len(s) > 0 and s[0] in lookup: 
    print(line.rstrip())

:이 시점에서

chmod 755 py.py 
./py.py file1 file2 > file3

당신은 대소 문자를 구분하지 할 파일을 약간 조정할 수도 있습니다? lookup 키와 s [0]에 .lower()를 추가하십시오.

출처

2016-07-08 18:46:49

그렙 + 강타는 : - 각각의 시작 ^ (라인의 시작의 정규식)를 추가

grep -f <(tail -n +2 file1 | sed 's/^/^/g') file2 > file3

이것은 GeneName 열 (두 번째 행에서 인쇄 시작 tail -n +2를 사용하여 첫 번째 행 스킵) 제거 line - 이러한 목록은 grep -f이 줄을 일치시키고 file3에 쓰는 데 좋은 목록입니다.

이것은 출력에 헤더 (GeneName) 행을 원하지 않는다고 가정합니다.

출처

2016-07-08 18:49:06

답장을 보내 주셔서 감사합니다. 나는 코드를 시도했지만 결과 파일은 완전히 비어 있습니다. 중복되는 데이터가 있는지 확인한 결과 적어도 몇 줄이 있어야합니다. 또한, GeneName을 ^로 대체하는 목적에 대해 좀 더 설명 할 수 있습니까? 고맙습니다! –

@DLee'grep -v'는 일치하지 않는 모든 줄을 출력하기위한 것이고 꼬리로 바꿉니다. –

@DLee 일치하는 실생활 예제가 있습니까? 필자가 예제로 테스트 해 보았는데 작동하므로 입력에 문제가있을 수 있습니다. –

두 개의 서로 다른 파일을 비교하고 중복되는 데이터를 추출하는 방법은 무엇입니까?

답변

관련 문제