2012-03-06 4 views
0

C 언어의 텍스트 파일에서 DNA 서열을 읽고이를 어레이에 저장하고 각 뉴클레오티드 위치에서 시작하는 주어진 길이의 모든 부분 문자열을 추출하는 방법은 무엇입니까?텍스트 파일에서 DNA 시퀀스를 읽고 C의 배열에 저장하는 방법?

예컨대 시퀀스는 텍스트 파일에서 다음과 같은 방식으로 모든 출발 위치

cctgatagacgctatctggctatccaggtacttaggtcctctgtgcgaatctatgcgtttccaaccat

모든 하위

경우 서브 스트링 = 3의 길이

cct, ctg, tga, gat, ..., cat

+1

fasta/fastq 파일을 다음과 같이 구문 분석하십시오. http://lh3lh3.users.sourceforge.net/parsefastq.shtml 매우 편리합니다. – flies

답변

0

C 언어는 의무 사항입니까? 내가 파이썬과 같은 높은 수준의 언어로 이동할 것

,이 기능은 할 것이다 :

from itertools import count 

def iterate_fragments(sequence,size): 
    """Takes a string and yields pieces of given size.""" 
    for number in count(): 
     try: yield sequence[number:number+size] 
     except IndexError: break 

for fragment in iterate_fragments(dna_sequence,3): 
    print fragment 

이 간단한 코드는 각각의 DNA 단편 (3 개 뉴클레오티드 크기)을 인쇄합니다.