저는 현재 F #을 배우고 있으며 금융 시계열을 분석하기 위해이 도구를 사용하고 있습니다. 누구든지 시계열 데이터를 저장할 좋은 데이터 구조를 추천 할 수 있습니까?F #에 큰 시계열을 저장하는 간결하고 유용하며 효율적인 방법은 무엇입니까?
F #은 다양한 유형의 네이티브 유형을 제공하며 우아하고 간결하며 효율적인 솔루션을 제공하는 몇 가지 간단한 조합을 찾고 있습니다.
타임 스탬프가있는 수백만 개의 레코드와 누락 된 값이있는 숫자 및 텍스트 데이터의 여러 (~ 5-20) 필드로 구성된 매장 진드기 데이터를 찾고 있습니다.
첫 번째 생각은 아마도 일련의 튜플 또는 레코드 일 것입니다. 그러나 누군가가 현실 세계에서 잘 작동하는 것을 친절하게 제안 할 수 있는지 궁금합니다.
편집 : 명확한 설명을 위해
몇 가지 추가 포인트 :
내가 필요로 할 가능성이있어 일반적인 작업은 다음과 같습니다
- 시간 기반 검색 - 즉, 가장 최근의 데이터 포인트를 찾을 수 주어진 시간에
- 시간 기반 조인
- 추가 (업데이트 및 삭제는 거의 발생하지 않습니다.)
필자는 주로 F #을 연구용 대화식 도구로 사용하여 (실제로 큰) 추가 보너스로 컴파일 할 수있는 기능을 탐색하고 있습니다.
ANOTHER 편집 : 나는 또한 언급해야
, 내 역할/F 번호의 사용이 데이터를 연구하지 개발에서 순전히이다. 일단 데이터를 이해하고 나면이를 더 잘 이해하고 나중에 개발자가 작성할 도구를 지정할 수 있습니다.
우리 모델은 계산 집약적이며 많은 메모리를 사용하며 항상 재귀 적으로 코딩 할 수는 없다는 점에 우려합니다. . 그래서 많은 사람들이 어쨌든 큰 덩어리를 질의해야합니다.
필자는 이러한 종류의 작업을 위해 항상 Matlab 또는 R을 사용해 왔지만 지금은 F #에 관심이 있습니다. 연구용 인터랙티브하고 높은 수준의 유연성을 제공하지만 동일한 코드를 사용할 수 있습니다. 생산.
처음에이 컨텍스트 정보를 제공하지 않아서 사과드립니다. (이것이 내 첫 번째 질문입니다.) 사람들이 대답을 할 수있게되었습니다.
저에게 도움이 된 모든 사람들에게 다시 한 번 감사드립니다.
,하지만 당신이 정말로 시계열 분석을 위해 수백만 개의 레코드를로드해야합니까 :
여기에 F # 파워 팩에 LINQ 지원에 대한 돈 사임의 링크입니다? 내가 아는 한, 데이터 마이닝 모델은 무작위로 샘플링 된 데이터로 만들 수 있으며 임의로 샘플링 한 다른 데이터에서 테스트 할 수 있습니다. (모든 데이터베이스 행에서 모델을 빌드해야한다는 엄격한 요구가없는 한) –
문제에 규모를 부여하기 위해 수백만 달러가 포함되었습니다. 물론 많은 레코드가 많은 응용 프로그램에서로드 될 필요가 없으며 편의성,로드 효율성 및 사용 된 메모리간에 트레이드 오프가있을 수 있습니다. 서브 샘플링, 이동하는 윈도우 등을 사용할 수 있습니다. 그러나 진드기의 큰 더미가 편리한 경우가 있습니다. 예를 들어 광범위한 시간 규모에 걸쳐 데이터 집계의 영향을 실험하고있는 경우입니다. –
즉, 처음에는 데이터를 일부 데이터베이스 저장소에 집계해야합니다. 일반적으로 이러한 집계는 데이터웨어 하우스에서 수행됩니다. 그 후에는 이미 집계 된 (효율적인/소형) 데이터에서 데이터 마이닝을 수행 할 수 있습니다. –