2011-03-11 3 views
2

많은 히스토그램을 사용합니다. 특히 이러한 히스토그램은 인간 게놈상의 세그먼트를 기준으로 한 기본 값입니다.변동성 분석 알고리즘

x 축의 각 점은 DNA를 구성하는 네 개의 질소 염기 (A, C, T, G) 중 하나이며 y 축은 기지를 "호출"할 수 있었던 횟수를 나타냅니다 (또는 시퀀서 기계에 의해 인식되어, 게놈을 따라 서열을 결정할 수 있으며, 게놈을 따라 각 염기의 신원을 결정하는 것이다).

많은 히스토그램은 기계가 충분한 판독 깊이를 얻을 수없는 경우 대략 평탄한 드롭 오프를 나타내며 고원과 같은 지역에서 0 또는 (거의 0) 떨어집니다. 스코어가 0으로 떨어지면 시퀀서가베이스의 신원을 결정할 수 없다는 것을 의미합니다. 이전에 이중 나선을 본 적이 있다면 시퀀서가 나선의 둘레를 식별 할 수 없다는 의미입니다. 게놈의 특정 지역은 다른 지역보다 특징을 짓기가 더 어렵습니다. > = 100의 순서로 많은 수의 기본 호출이있는 기본 (또는 x 데이터 점)을 명확하게 식별 할 수 있습니다. 예를 들어 하나의베이스에 대해 총 250 건의 호출이 있고 248 개의 T가 호출되고 1 개의 G가 호출되고 1 개의 A가 호출되면 우리는이를 T라고합니다. 0 개의 기본 호출이있는 영역이 중요합니다. 이웃 지역들로부터 저 독서 지역의 정체성이 무엇인지를 추측해야한다. 이러한 경향을 반영하는 스코어를 이들 플롯에 할당하는 간단한 알고리즘이 있습니까? 예제 histo는 box.net/shared/nbygq2x03u를 참조하십시오.

답변

1

읽기 심도가 0 인 경우 기본 숫자 카운트를 사용할 수 있습니다 ... 해당 선의 기울기도 유용한 지표가 될 수 있습니다 (가파른 음의 기울기 = 고원에서 떨어짐).