2016-12-07 11 views
-1

I는 다음과 같은 한 입력 데이터 : 대규모 데이터 로지스틱 회귀

head(data1) 
       VarA VarB VarC   VarD VarE VarG VarH VarI 
2016-06-01 09:30:05 14.2 31228 ABCD IS Equity 1 139 192 23 
2016-06-01 09:30:07 14.2 31128 ABCD IS Equity 0  0  0 0 
2016-06-01 09:30:09 14.2 36128 ABCD IS Equity 1 138 192 23 
2016-06-01 09:30:19 14.2 36028 ABCD IS Equity 0  0  0 0 
2016-06-01 09:30:21 14.2 27028 ABCD IS Equity 1 112 190 23 
2016-06-01 09:30:37 14.2 26528 ABCD IS Equity 0  0  0 0 

VarA

유형 POSIXct이며, VarDchr이며 restsnum의이다.

VarE은 내 종속 변수입니다. VarC, VarB, VarG, VarH and VarI이 내 설명 변수입니다. datset의 총 행 수는 7.4 million입니다. 나는 로지스틱 회귀 분석을하고 싶다. 나는 binomial family을 사용하여 을 biglm 패키지에서 시도했다. 그러나 그것은 failing to converge입니다. 이로 인해 적절한 편차 값을 얻지 못하고 있습니다. 그래서 나는 같은 문제에 대해 McFadden's R-Sqr 컴퓨팅 문제를 겪고있다. 다른 패키지/방법을 권해 주시겠습니까?

미리 감사드립니다.

+0

Downvote ?? 왜 그럴 수 있니? 가능한 경우 다음 번에 신중할 수 있도록 설명해주십시오. – Zico

답변

0

sgd 패키지를 사용하면 확률적인 그래디언트 디센트 방법을 통해 샘플별로 데이터를 처리 할 수 ​​있습니다.

+0

고마워, 나는 그것을 시도했다. 그것은 성공적으로 수렴하고 있지만 매우 제한된 정보를 제공합니다. Pseudo R-Sqr 계산에 대한 정보를이 유일한 정보와 공유 할 수 있습니까? 모델, 계수, 수렴, 추정치, 위치, 시간, model.out 등의 정보 만 볼 수있었습니다. – Zico