2013-05-01 6 views
1

폴더의 개별 fasta 정렬의 100 개 이상의 파일 각각에 대한 합의 시퀀스를 얻기 위해 코드를 작성하려고합니다. 시작하기 위해 나는 단지 하나의 시퀀스에 대한 합의를 원했다. (모두를 처리하기 위해 for 루프를 사용할 것이다.) 그러나 나는 합의의 알파벳에 문제가있다.빈칸이 'N'으로 코딩되고 모호성으로 다형성이있는 BioPython 합의 시퀀스

>seq1 
ACGTACGATCGTTACTCCTA 
>seq2 
ACGTACGA---TTACTCGTA 

과 제가 같이 할 수있는 합의를 원하는 것은 : 내 테스트 FASTA 정렬은

ACGTACGANNNTTACTCSTA 

나는 'N'과 열을 기준으로 표현 될 수있는 격차가 포함 된 열을 싶습니다 모호성 코드로 표현되는 100 % 동일한 뉴클레오타이드없이. 작동하지 않는

내 코드는 다음과 같습니다

from Bio import AlignIO 
from Bio.Align import AlignInfo 
from Bio.Alphabet import IUPAC, Gapped 
alphabet = Gapped(IUPAC.ambiguous_dna) 

alignment = AlignIO.read(open("fasta_align_for_consensus.fa"), "fasta") 
summary_align = AlignInfo.SummaryInfo(alignment) 
consensus = summary_align.gap_consensus(threshold = 1.0, ambiguous = 'N', consensus_alpha \ 
= alphabet, require_multiple = 2) 

'모호한'목적은 단지 문자열을 받아 정렬에서 다형성이 합의에 어떤 장소에서 'N'을 배치, 나는 그럴 수없는 것 같습니다. 이 문제를 해결하는 방법에 대한 제안은 크게 감사하겠습니다. 감사합니다.

답변

1

현재의 간단한 합의 방법은 원하는 것을하지 않습니다. IUPAC 모호성 코드 (어쩌면 약간의 문턱을 가졌습니까?)와 갭에 대한 특별한 대처법을 묻는 것처럼 들립니다. 아마도 기존 방법에 기반하여 직접 코드를 작성해야합니다.

+0

답변 해 주셔서 감사합니다. – owen