2015-02-06 14 views
1

Biopython 모듈 NCBIWWW 모듈을 사용하여 일부 시퀀스를 온라인으로 폭발시키고 있습니다. 내가 사용할 수있는 다른 데이터베이스에 대해 내 시퀀스를 폭파하고 싶습니다, 그러나 나는 그들의 포괄적 인 목록을 찾을 수 없습니다.BLAST via Biopython NCBIWWW. 어디에서 전체 데이터베이스 목록을 찾을 수 있습니까?

"blastn"알고리즘을 사용하여 Nucleotide 컬렉션 데이터베이스에 대한 간단한 쿼리의 예입니다.

from Bio.Blast import NCBIWWW 

result_handle = NCBIWWW.qblast("blastn", "nt", some_sequence) 

여기서 알 수 있듯이 데이터베이스 Nucleotide 수집은 "nt"로 지정됩니다. 예를 들어 Human GRCh37/hg19 데이터베이스를 쿼리하려면 "nt"대신 무엇을 사용해야합니까? 그리고 다른 종/빌드를 쿼리하고 싶다면? http://blast.ncbi.nlm.nih.gov에서 사용할 수있는 모든 데이터베이스의 약식 이름을 찾을 수있는 포괄적 인 목록이 있습니까?

감사합니다.

답변

1

당신은 단순히 http://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=tblastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome로 이동하여 데이터베이스를 클릭 드롭 다운 목록에서 당신은 인간 게놈에 대한 http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastSearch&PROG_DEF=blastn&BLAST_PROG_DEF=megaBlast&BLAST_SPEC=OGP__9606__9558을 시도 NR, NT, 추정 등

처럼 거기에 데이터베이스 이름을 찾을 수 있습니다. https://github.com/biopython/biopython/blob/master/Bio/Blast/NCBIWWW.py에서 코드의 바이오 파이썬의 설명서를보고

+0

네,하지만 일부 데이터베이스에서는 작동하지만, 인간 게놈 hg19를 원하면 어떻게해야합니까? –

+0

대답 @alec_djinn –

+0

업데이트이 웹 사이트에서 잘 작동합니다, 제 질문은 NCBIWWW를 사용하여 동일한 쿼리 (인간 게놈 GRCh37)를 얻는 방법입니까? 어떤 문자열을 함수 호출에 "nt"대신 넣어야합니까? NCBIWW.qblast ("blastn", "Genome (GRCh37.p13 참조 어셈블리 최상위, 주석 릴리스 105) - Homo sapiens", fasta_string)'가 작동하지 않습니다 ... –

1

는 그것이이 API를 쿼리 것 같다 http://www.ncbi.nlm.nih.gov/BLAST/Doc/urlapi.html이 기능은 매개 변수 의 유효성 체크는하지 않고,에 값을 전달

(...) 있는 그대로의 서버. 당신이 바이오 파이썬은 당신이/쿼리 'DATABASE'항목을 포함하는 API의 모든 측면을 분석 할 수 있습니다 볼 수 있듯이 http://www.ncbi.nlm.nih.gov/BLAST/Doc/urlapi.html

: 더 많은 도움에서 확인할 수있다. 이제 귀하의 질문에 실제로 문제가 귀하의 DB에 대한 짧은 이름은 무엇입니까 그래서 API에 의해 인식됩니다. API의 문서는 훌륭하지 않으므로 유효한 DB 이름 (전적으로 biopython에 무관 함)이있는 목록이 없습니다.

가 나는 문제를 해결 여부를 보이더라도 새우의에서이 목록들이 공개 FTP 자신의 DBS의 이름을 어떻게 볼

http://www.ebi.ac.uk/Tools/sss/ncbiblast/help/index-nucleotide.html http://www.ebi.ac.uk/Tools/sss/ncbiblast/help/index-protein.html

또 다른 방법이 될 것이다

도움을 발견 ftp://ftp.ncbi.nlm.nih.gov/blast/db/

희망이 도움이됩니다. Fabio

+0

안녕하세요 Fabio, 답변 해 주셔서 감사합니다. 당신이 제공 한 목록은 제가 찾고있는 것에 매우 가깝습니다. 불행히도 필자는 여전히 데이터베이스에 액세스 할 수 없습니다.예를 들어 [BLAST 웹 양식] (http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastSearch&BLAST_SPEC=OGP__9606__9558&LINK_LOC=blasthome)에는 인간 참조 게놈 GECh37과 GRCh38 중에서 선택할 수있는 옵션이 있습니다 . 나는 api를 사용하여 동일한 작업을 수행 할 수있을 것으로 기대하지만 올바른 데이터베이스/게놈 빌드를 지정하는 방법을 찾을 수 없으며 다른 빌드에 대한 정보도 게시하지 않았습니다. –

+1

@alec_djinn 웹에서 폭발 할 때 http 요청을 검사하는 방법이 약간 까다 롭습니다. 그런 다음 양식 데이터와 결과 인코딩 된 URL을 작성하는 방법에 대해 알아보십시오. Chrome의 개발자 도구로이 작업을 수행 할 수 있습니다. 이 예제를 http://i.imgur.com/JGgMKWH.png?1 확인하고 도움이 필요하면 알려주십시오. 내 생각 엔 그들의 데이터베이스 이름이 동일해야하며 따라서 그것은 biopython에서 작동합니다. 파비오 –

+0

흥미 롭습니다! 나는 그것을 밖으로 시도하고 알려 드리겠습니다. –