다중 고정 염기 서열 파일 (예 : Roche-454 ~ 500,000 개의 평균 읽기 길이 250bp 읽기)을 "bin"(개별 파일로 분할)하고 싶습니다. 나는 각각의 GC 내용에 기반한 저장소를 원한다. < 20 % GC 함량 21-30 %의 GC 함량 31-40 %의 GC 함량 41-50 %의 GC : 얻어진 출력은 8 멀티 FASTA 파일 것 콘텐츠
저는 의학 연구 회사에서 인터뷰를 준비하는 초급 Silverlight 프로그래머입니다. 욥은 흥미 진진한 소리가 나는데 거기에 가고 싶습니다. 내 기술과 관심을 보이기 위해 주제와 관련된 프로그램을 작성하고 싶습니다. 무엇을 제안 하시겠습니까? 첫 번째 아이디어 : 입력 데이터, 이미지 컬렉션 (예를 들어, HD의 DNA 이미지를 찾아 실버 딥 줌에 넣어)
커다란 유니 코드 문자열 데이터베이스를 쿼리하기 위해 BLAST 알고리즘을 실행하고 싶습니다. BLAST와 같은 대부분의 정렬 소프트웨어는 뉴클레오티드 또는 단백질 스트링을 입력으로 기대합니다. 하지만 내 입력에는 유니 코드 문자가 포함될 수 있습니다. 누구든지이 작업을 수행 할 수있는 소프트웨어를 알고 있습니까? 득점 행렬은 단위 행렬 일 수 있습니다.
나는 여러 단백질 서열을 포함하고있는 FASTA 파일을 가지고있다. 형식은 다음과 같습니다. ----------------------
>protein1
MYRALRLLARSRPLVRAPAAALASAPGLGGAAVPSFWPPNAAR
MASQNSFRIEYDTFGELKVPNDKYYGAQTVRSTMNFKIGGVTE
RMPTPVIKAFGILKRAAAEVNQD
여러 임의 변수의 분포를 사전 계산하려고합니다. 특히 이러한 임의 변수는 게놈의 위치에서 계산 된 함수의 결과이므로 각각에 대해 10^8 또는 10^9 값의 순서가 있습니다. 함수는 꽤 매끄 럽기 때문에 매 2/10/100마다 평가하여 많은 정확도를 잃을 것이라고 생각지 않습니다. 기본 또는 그렇게하지만, 많은 수의 샘플이있을 것입니다. 제 계획은 각 함수
사용자 정의 웹 링크를 열려면 서머 마트를 작성했습니다.이 경우에는 UCSC 게놈 브로커의 특정 게놈 위치를 엽니 다. javascript:d=%22%22+(window.getSelection?window.getSelection():document.getSelection?document.getSelection():document.selection.creat
다음은 사용자가 제공 한 모티프에 대해 명령 행에서 입력 한 FASTA 파일을 검색하는 코드입니다. 내가 그것을 실행하고 파일에있는 모티프를 입력하면 'Motif not found'가 반환됩니다. 필자는 Perl의 초보자 일 뿐이며 제목 줄을 반환하지 않고 발견 된 모티브를 인쇄하는 방법을 알아낼 수는 없습니다. 이 문제를 해결할 수있는 도움을 주시면 감사
나는이 두 개의 동일한 길이의 문자열을 비교해야합니다. 오버랩베이스 (.)와 내부 갭 (*)을 찾고 싶습니다. 중복 ------ACTAAAAATACAAAAA--TTAGCCAGGCGTGGTGGCAC
-----TACTAAAAATACAAAAAAATTAGCCAGGTGTGGTGG---
................**.................