저는 여러 시퀀스 세트 (FASTA 파일)에서 다양한 시퀀스 기반 기능을 추출하는 생물 정보학 시퀀스 연구에 종사하고 있습니다. 시퀀스의 다양한 기능을 생성하고 각 시퀀스를 개별적으로 처리합니다 (필자는 수만 개의 시퀀스로 작업 할 것입니다). 나는 프로그래밍 및 데이터 처리 초보자입니다.scikit-learn을 사용하여 새로운 기능 저장
생성 된 기능을 저장하고 출력 (즉, CSV 파일의 행렬에 저장)하는 가장 좋은 방법은 무엇입니까? 기능
이름은 나에게 중요하다, 그래서 각 별도의 시퀀스 일치하는 그들의 출력 순서를 필요로뿐만 아니라, 그것들을 할 것입니다. 나는 scikit이의 "dictVectorizer"기능이 작동 할 수 배울 것을 이해하기 때문에
나는, 사전에 (순서 당) 기능을 저장하기 위해 계획했다. 그러나 - 사전은 조직화되어 있지 않으므로 필자는 각 시퀀스의 기능을 개별적으로 추출하여 다음 시퀀스에서 추출한 다음 작성합니다 - 작성시 동일한 순서를 유지합니까? (모든 특징은 수치 적이며 연속적이지만 많은 것은 0의 값을 가질 수 있고, 어떤 것들은 출력으로서 벡터를 가질 수있다 [E.G-400 중복 된 바이 그램의 빈도 카운트).감사합니다.
(나는 주로 I/O에 관심을 혼합 기능 출력을받지 못했습니다.) pandas
또는 dill
이 될 것입니다이 작업을 수행하는
다음과 같은 도움이되는 주문 사전이라고 부르는 것이 있습니다. https://docs.python.org/2/library/collections.html#collections.OrderedDict –
Sklearn 메서드 (S)와 함께 작동하는지 알고 싶습니까? – GrimSqueaker
아니요, 죄송합니다. scikit-learn의 맥락에서 사용하지 않았습니다. –