저는 PLINK와 함께 SNP 칩 데이터를 분석하고 있습니다.PLink를 사용하여 위치 SNP별로 복제 된 것을 어떻게 제거합니까?
중복 된 SNP를 제거하는 방법을 아는 사람이 있습니까?
저는 PLINK와 함께 SNP 칩 데이터를 분석하고 있습니다.PLink를 사용하여 위치 SNP별로 복제 된 것을 어떻게 제거합니까?
중복 된 SNP를 제거하는 방법을 아는 사람이 있습니까?
파일이 이미 plink 형식 인 경우 이진 plink 파일의 경우 .bim이거나 텍스트 plink 파일의 경우 .map이어야합니다. 두 경우 모두 위치는 세 번째 열에 있고 SNP 이름은 두 번째 열에 있습니다. 그런 다음
sort -k3n myFile.map | uniq -f2 -D | cut -f2 > dupeSNP.txt
--exclude 플래그 가용 스루풋을 실행합니다 :
plink --file myFile --exclude dupeSNP.txt --out myFileSubset
친애하는 zx8754, 정말 감사합니다. .txt 파일을 plink 형식으로 변환 할 수있는 방법이 있는지 알고 싶습니다. 사실 그 파일은 전승 후 개별적으로 각 염색체의 분석에서 나옵니다. 그래서 나는 모든 산출 결과를 다시 결합하여 plink로 만들고 싶습니다. 26 개의 개별 파일 형식은 다음과 같습니다. 첫 번째 열은 ID이고 다른 모든 열은 입력 된 snps입니까? – user2808642
@ user2808642 새 질문이 별도의 질문 인 경우 또한 예제 데이터와 예상 출력을 제공하십시오. – zx8754
도움이 되었다면 upvoting/accepting 대답을 고려하십시오. – zx8754
당신은 또한 --list-duplicate-vars
를 사용 PLINK1.9에서 직접 할 수
우리는 중복의 SNP의 목록을 작성해야 플래그와 <require-same-ref>
, <ids-only>
또는 <suppress-first>
수정자를 원하는대로 수행 할 수 있습니다. 자세한 내용
당신은 중복과 변형의 모든 발행 수를 삭제하려면
에 대한체크 https://www.cog-genomics.org/plink/1.9/data#list_duplicate_vars, 당신은 .dupvar
확장자가 있어야 --list-duplicate-vars
, 의 출력 파일에 --exclude
플래그를 사용해야합니다.
더 전문화 된 사이트에서 더 많은 답변을 얻으실 수 있습니다. https://bioinformatics.stackexchange.com – bli