2010-02-10 3 views
2

저는 상사에게 새로운 개발 소스의 품질을 증명하기 위해 2 가지 시장 데이터 소스를 비교하는 도구를 구현하는 첫 단계에 있습니다 (회귀가 없거나 업데이트가 누락되거나 잘못되었음을 의미 함). 대기 시간 개선을 증명합니다.품질 및 대기 시간 개선을위한 시장 데이터 피드 소스를 어떻게 비교할 수 있습니까?

그래서 내가 필요로하는 도구는 업데이트 차이점을 확인하고 어떤 소스가 가장 좋은지 (대기 시간으로 말하면) 확인할 수 있어야합니다.

참조 소스는 Reuters 일 수 있고 다른 하나는 내부적으로 개발 한 피드 처리기입니다. 사람들은 로이터 구현이 우리와 완전히 다를 수 있다는 것과 같은 순서로 업데이트가 도착하지 않을 수도 있다고 경고했습니다. 따라서 업데이트가 동일한 순서로 도착할 수 있다는 사실에 기반한 간단한 알고리즘은 작동하지 않을 가능성이 큽니다.

내 첫 번째 아이디어는 Shazaam 응용 프로그램이 제출하는 튜브의 제목을 찾기 위해 지문을 사용하여 피드 소스를 비교하는 것입니다. Google은 FFT를 기반으로한다고 말했습니다. 그리고 신호 처리 이론이 시장 접근 애플리케이션에서 잘 작동하는지 궁금해졌습니다.

나는 그 분야에서 자신의 경험을 알고 싶었습니다. 그 요구를 충족시키기위한 매우 정확한 알고리즘을 개발할 수 있습니까? 너 자신의 생각은 뭐니? 지문 기반 비교에 대해 어떻게 생각하십니까?

+0

저는 그러한 도구를 개발 한 회사의 일부입니다. 그것은 할 사소한 일이 아닙니다. 그것은 결정 론적이고 휴리스틱하지 않습니다. 언제든지 저에게 연락하여 정보를 얻으십시오. – Tim

답변

1

데이터를 제공하는 교환기가 제공하는 데이터에 대한 고유 식별자가있는 경우 구현은 간단하지만 사소하지는 않습니다.

기본적으로 두 피드를 구독하는 앱이 있습니다. (비 침입 모니터링/측정을위한 스 니프 기반 소프트웨어로도이 작업을 수행 할 수 있습니다.)

두 가지 목록 (또는 "타의 추종을 불허하는"샘플을 지적하는 다른 방법은 각 피드)에 일치하지 않는 데이터/업데이트가 있습니다. 각 업데이트가 들어 오면 다른 데이터 피드의 다른 목록에서 해당 항목을 찾습니다. 성공적으로 일치하면이 쌍을 저장할 수 있습니다. 각 업데이트가 제공 될 때마다 어떻게 든 "타임 스탬프"를 할당해야합니다. 로컬 시스템 시간 일 가능성이 큽니다. 이 단순한 경우의 기원은 상대적 대기 시간을 결정하는 동일한 교환이므로 매우 쉽습니다.

이 방법을 사용하려면 데이터에 대한 구독 응용 프로그램을 작성해야합니다. 누락 및 업데이트와 시간이 초과 타의 추종을 불허하는 데이터를 처리하는 등의 문제가 많이 있습니다

는 교류를 처리하거나 데이터 주위에 작업, 업데이트에 대해 고유 한 십오을 제공하지 않을 수도 공급하는 방법 등 UTC 시간 대 WRT 지역의 실수,

벤더

데이터를 스니핑하는 것은 비슷하지만 pcap 또는 하드웨어 캡처 카드를 통해 데이터를 캡처 한 다음 패킷의 끝점을 기반으로 스트림을 구문 분석합니다. 이것은 똑바로 구독하는 것보다 약간 어렵지만 측정 할 수있는 데이터 집합에 대해 방해가 없으며 상당히 유연하다는 이점이 있습니다.

0

기업 활동 데이터의 여러 소스를 둘러싼 피드를 보았던 한 가지 접근 방식은 단순히 피드가 역사적으로 가장 정확한 경향이있는 경험적 정보를 유지함으로써 데이터에 더 큰 비중을 부여하는 것입니다.

물론 모든 유형의 시장 데이터 중 기업 활동이 가장 낮은 볼륨 중 하나 일 수 있으므로이 기술은 아마도 데이터를 틱 (tick) 데이터로 확장하지 않을 것입니다.

+0

이 필드는 또한 비 경험적 매칭 및 분석을 원한다고 생각합니다 ... – Tim