나는 DNA 서열과 서열의 이름을 가진 FASTA 파일을 가지고 있으며, 나는 중첩 점수의 행렬을 만들 필요가있다. Biopython에서 모듈 pairwise2
을 발견했습니다.이 모듈은 꽤 잘하는 것 같습니다. 내 시퀀스가 이미 정렬 된 것을 제외하고 pairwise2
을 사용하면 시퀀스가 매우 길어지며 모든 정렬에 대해 동일한 오버랩 스코어를 얻게됩니다. 그래서 내 질문은 시퀀스를 다시 정렬하지 않고 겹치는 점수를 얻는 방법은 무엇입니까? 내가 적격 심사로 여기에 FASTA 파일에서 첫 번째와 두 번째 순서를 사용했습니다중복 스코어 행렬 biopython
from Bio.Alphabet import IUPAC
from Bio import SeqIO
from Bio import pairwise2
fasta_file = SeqIO.parse('unambiguous.fasta', 'fasta', alphabet=IUPAC.ambiguous_dna)
all_seq = []
for seq_record in fasta_file:
all_seq += [str(seq_record.seq)]
compare = pairwise2.align.globalms(all_seq[0], all_seq[1], 2, -1, -1, 0)
print(compare)
: 여기 는 내가 지금까지 가지고있는 것입니다. 스크립트에서 볼 수 있듯이, 2 점, 불일치 및 갭 -1에 대한 보상이 있어야합니다. 두 서열 모두 같은 위치에 간격이있을 때 0이 보상이되어야합니다. 나는 4 위 자리에 0을 넣으면 원하는 결과를 얻지 못할 것이지만 그 문제에 대한 해결책이 아직 없다는 것을 알고 있습니다. 이 시점에서 정렬 문제는 더 커 보인다. pairwise2 또는 다른 파이썬/biopython 모듈에 대한 경험이있는 사람이라면 겹치는 점수를 얻을 수 있습니까?
'unambiguous.fasta'에는 정렬 된 시퀀스가 포함되어 있습니까? –
질문을 편집하여 문제를 나타내는 예제 입력을 포함 시키십시오. – MattDMo