키 스트로크 생체 인식 인증 프로젝트를 진행 중입니다. 전통적인 암호 기반 인증보다 래퍼와 같습니다. 암호가 맞으면 "타이핑 리듬"이 있는지 확인하고 사용자의 프로필과 일치하면 긍정적 인 출력을 제공합니다. 그렇지 않으면, 음의 출력이 주어집니다. "타이핑 리듬"은 암호를 입력하는 동안 추출되는 타이밍 속성을 매핑하여 검사합니다. PP (Press-Press time), PR (Press-Release time), RP (Release-Press time), RR (Release-Release time) 및 Total time과 같은 본질적으로 5 가지 기능이 있습니다. PP는 두 개의 연속 키 (문자)를 누를 때 사이의 시간입니다. RR은 두 개의 연속 키를 해제하는 사이의 시간입니다. PR는 키를 눌렀다 놓은 시간입니다. RP는 키를 놓은 후 다음 키를 누를 때까지의 시간입니다. 총 시간은 암호의 첫 번째 키를 누르고 암호의 마지막 키를 놓는 사이의 시간입니다.sci-kit에 대한 일부 항목에 대해 다양한 수의 열로 사용자 정의 데이터 세트를 표현하고로드하는 방법 learn
프로젝트 용으로 열린 데이터베이스 GREYC-Web based KeyStroke dynamics을 사용하고 있습니다. 각 데이터 수집 세션에는 누른 키의 ASCII 값과 PP, PR, RP, RR 및 총 시간의 타임 스탬프가 포함됩니다. 또한 실제 사용자가 암호 또는 사기자를 입력하는지 여부도 포함됩니다. 데이터를 수집하는 동안 사용자는 자신의 암호를 사용할 수있었습니다. 당연히 다양한 길이의 암호가 있습니다. 그 외에도 사용자는 Shift, Caps, Backspace, Delete 등의 추가 키를 누를 수 있습니다. 특정 사용자의 경우에도 암호를 입력하는 세션마다 암호 길이가 다를 수 있습니다. 이 컨텍스트에서 암호 길이는 사용자가 입력 한 총 키 (문자) 수입니다. 예를 들어, 사용자의 실제 암호가 "abcd"인 경우. 한 세션에서 그는 올바르게 입력하고 암호 길이는 4입니다. 다른 세션에서 그는 다음과 같은 키 - a, l, 백 스페이스, b, c, d-를 입력하므로 암호 길이는 6입니다.
다음은 제안 된 시스템의 일부 컨텍스트입니다. 제안 된 시스템 블록 다이어그램은 다음과 같습니다. "입력 특징 공간 파티션"은 가우시안 (Gaussian), K-NN 및 OCSVM과 같은 다른 분류기에 공급할 실제 데이터베이스의 하위 집합을 만듭니다. 이러한 분류기의 출력은 BPNN (Back-Propagation Neural Network)으로 보내지며 그 결과가 최종 출력됩니다. BPNN은 잘못된 결과를주는 분류기를 처벌하고 정확한 결과를 제공하는 분류기를 보상하는 데 사용됩니다.
제 질문은이 가변 길이 데이터를 처리하여 sci-kit에서 사용할 수 있도록 구조화 된 형식으로 표현하는 방법입니다.
나는 데이터의 사전 처리를 위해 팬더와 numpy를 조사했다. 하지만 내 문제는 전처리 단계에 선행합니다.
미리 감사드립니다.