2014-04-23 5 views
1

이고 내 스레드 읽기에 감사드립니다.신경망 입력 및 출력 데이터 형식이

신경망에 대한 입력 데이터의 형식을 지정/정규화하는 것에 대한 이전 게시물을 읽었지 만, 구체적으로 내 검색어를 처리하는 것을 찾을 수 없습니다. 나는 긴 게시물에 대해 사과드립니다.

경마 데이터를 분석하기 위해 방사 기반 기능 네트워크를 구축하려고합니다. 나는 이것이 이전에 행해졌다는 것을 알았지 만, 나는 가지고있는 데이터가 "특별하다". 그리고 나는 경주/sportsbetting/programming에 대한 관심이 너무 많아서 한 번 시도하고 싶다!

RBFN 자체의 원칙을 이해하고 있지만 입력 데이터의 정규화/형식 지정/크기 조정을 이해하는 데 어려움을 겪고있어서 네트워크에 "현명한 방식으로"표시됩니다. 출력 목표 값을 어떻게 정형해야하는지 확신 할 수 없습니다.

예를 들어, 데이터에서 이전에 경주와 비교하여 현재 실행중인 경주 클래스를 비교하고 -5에서 +5 사이의 값을 가질 수있는 "클래스 변경"을 봅니다. -1과 +1 사이의 값으로 다시 조정해야한다고 생각합니다. 그러나 많은 주자가 다른 값보다 1, 0 또는 -1의 클래스 변경을 가졌음을 알았 기 때문에 걱정이됩니다. "지나친 표현". 상위/하위 클래스 변경 사항에 대해 더 많은 데이터를 수집하는 것은 '데이터가 제공되는 방식'이기 때문에 가능하지 않습니다. 스케일링 후 그대로 데이터를 사용하는 것이 가장 좋을까요? 아니면 극한의 값을 다듬어야합니까?

마찬가지로 "마지막 실행 이후 경과 일수"와 같은 "연속적인"입력이 있습니다. 1에서 1000 사이의 값을 가질 수 있지만 10-40 사이의 값은 크게 두드러집니다. 이 값을 0에서 1 사이의 값으로 조정할 예정 이었지만 스케일링 전에 가장 극한 값을 조정하더라도 여전히 특정 범위의 거대한 표현을 갖게됩니다. 이것이 나에게 문제가 될 수 있습니까? 이와 같은 문제는 일반적으로 어떻게 처리됩니까?

마지막으로, 네트워크에 교육을위한 "대상"값을 제시하는 방법을 이해하는 데 어려움을 겪고 있습니다. 내 기존 결과 데이터에는 "승패"(0 또는 1?)와 주자가 얻거나 잃은 확률이 있습니다. "우승/상실"을 사용하면 모든 우승을 처리하고 실제로는 그렇지 않을 때도 잃게됩니다. 작은 우승자를 모두 무시했지만 10-1 샷을 골라 내기가 매우 유리한 네트워크에 만족할 것입니다. . 비슷하게, 네트워크는 20-1의 샷에서 "패한"것에 대해 용서받을 수 있지만, 2/5의 베팅을 잃는 것은 나쁜 손실입니다. 위의 문제를 포착하기 위해 우승자에게 결과 (+1 확률)를, 실패자에 대해 (-1/확률)을 만드는 것을 고려했지만, 이는 내 결과가 "불연속"이 될 것이므로 지속적인 기능이 아님을 의미합니다. 짧은 가격 승자와 짧은 가격 패자 사이.

내기를 걸거나 내기하지 않고 "스테이크"를 위해 두 개의 출력이 있어야합니까?

나는 많은 질문과 긴 게시물에 대해 유감스럽게 생각한다. 그러나 이것은 내가 바른 길로 출발하는 것을 정말로 도울 것이다.

나를 도와 줄 수있는 사람을 보내 주셔서 감사합니다! 당신의 RBFN와 함께

종류와 관련,

답변

1

문서는 이러한 질문들에 대답 할 수있는 좋은 출발점이 될 것입니다. "클램핑"또는 "winsorizing"이라고도하는 트리밍 데이터는 유사한 데이터에 사용하는 것입니다. 예를 들어 "마지막 실행 이후 일"은 말에서 수 일에서 수년까지의 기간이 될 수 있지만 20 일에서 30 일 사이의 지역을 중심으로하는 경향이 있습니다.일부 전문가는 "철자"를 나타내는 데 63 일의 수치를 사용하므로 예를 들어 "> 63 = 1 else 0"과 같은 지표 변수를 사용할 수 있습니다. 한 가지 단서는 특이점을 보아 변수의 상위 5 % 또는 하위 5 %를 말하며이를 고정시키는 것입니다. 어디에서나 확률/배당금을 사용한다면 확률 즉, 1/(확률 + 1)을 사용하고 100 %로 정규화하는 것이 좋습니다.확률 또는 파생 변수 가격은 다른 예측 변수를 압도하는 경향이 있으므로 한 가지 기법은 시장 변수 (시장 모델)와 비 시장 변수 (종종 "기본"모델이라고 함)에 대한 별도의 모델을 개발하는 것입니다.