2017-10-09 13 views
0

데이터 시퀀스에 DNA 시퀀스가 ​​포함되어 있습니다.이를 데이터 표현식으로 변환하고 싶습니다. 이 문서에서와 마찬가지로 :특징으로 DNA 시퀀스

DNA to Binary

  • 이 과정은 무엇인가 (변환), 나는 그것에 대해 검색 할?
  • 어떻게 파이썬으로 적용 할 수 있습니까?
  • 큰 배열로 데이터 집합 입력으로 할 수 있습니까?

답변

0

나는 당신이 말하는 프로세스가 one-hot encoding이라고 생각합니다. 너는 너비 3의 슬라이딩 윈도우를 사용하여 DNA 시퀀스를 3bp 단어 시퀀스로 변환하기를 원할 것입니다. 여기를 보시오 : Generate a list of strings with a sliding window using itertools, yield, and iter() in Python 2.7.1?

그래서 "DNA"단어 목록과 같은 것이 있어야합니다 (예 : ['aaa', 'tgc']) 그렇다면 각 단어를 벡터로 변환해야합니다. 이를 수행하는 한 가지 방법은 one-hot 표현을 사용하여 가능한 모든 단어와 값에 해당하는 키로 사전을 만드는 것입니다. 그런 다음 목록 이해 및 사전 조회를 사용하여 각 단어를 해당 벡터로 간단하게 변환 할 수 있습니다. 이것이 가장 효율적인 방법은 아니지만 시작일뿐입니다. sklearn은 OneHotEncoder이지만 정수에서만 작동합니다.

도 참조 https://machinelearningmastery.com/how-to-one-hot-encode-sequence-data-in-python/