10

Google 애널리틱스로 데이터를 전송하는 앱이 있습니다. 이 데이터를 Hadoop 클러스터에 액세스하고 저장하는 데 관심이 있습니다. 나는이 원시 데이터가 로그의 형태로있을 것이라고 추측한다. 특히 user_id, 사용자가 검색 한 내용 및 앱에서 지불하기로 결정한 검색 옵션을보고 싶습니다.Google 웹 로그 분석 - 원시 데이터 로그 받기

어떻게하면됩니까? 나는 완전히 GA에 익숙하지 않았고 나는 응용 프로그램을 위해 GA를 설정 한 사람이 아니 었습니다. 나는이 원시 데이터에 접근 할 수있는 방법이 있는지 알아보기 위해 노력하고있다.

큰 쿼리는 우리가 액세스 할 수 없기 때문에 사용할 수 없다고 덧붙이고 싶습니다. 그리고 GA를 설정 한 사람들은 유니버설 애널리틱스로 업그레이드하는 데 관심이 없습니다.

도움/의견/제안을 부탁드립니다.

감사합니다.

+0

샘플링되지 않은 원시 GA (프리미엄) 데이터에 계속 액세스해야하는 경우 아래에서 내 대답을 볼 수 있습니다. 누군가가 투표를 한 이유를 모르지만 그것은 도움이 될 수 있습니다. –

답변

12

이 로그를 얻을 수있는 방법은 없지만, ..

Google Analytics API 당신이 시스템에서 데이터를 추출 할 수있게된다. 당신이 7 치수 및 요청에 따라 10 개 메트릭 제한됩니다

  1. :

    당신이 할 수있는 일에는 한계가 있습니다.

  2. 프로필 (보기) 당 하루에 10k 요청의 할당량이 있습니다.
  3. 당신이 말하는 정보 중 일부는 사용할 수 없습니다. Google 애널리틱스 계정이 올바르게 설정되어 있지 않은 경우
  4. 데이터는 여전히 한 가지 방법으로 집계됩니다. API에서 사용할 수있는 가장 작은 시간 단위는 분이므로 타임 스탬프가 포함 된 원시 데이터를 가져올 수 없습니다.

전문 Google 애널리틱스 고객이 원시 데이터를 GA에서 Big Query으로 내보낼 수 있습니다. BigQuery에서 데이터를 내보내는 것은 무료이지만 저장 및 쿼리 처리는 사용량에 따라 가격이 책정됩니다.

Premium analytics at a reasonable price for one flat annual fee of $150,000

1

당신은 즉, 집계 된 데이터를 얻을 수 있습니다. Google 웹 로그 분석 API를 사용하여 Google 웹 로그 분석 계정에서 볼 수있는 데이터 원시 데이터를 얻으려면 프리미엄 사용자 여야합니다 (연간 150k). 프리미엄 사용자는 원하는 곳으로 Google BigQuery로 내보낼 수 있습니다.

+1

이 답변은 내 대답과 어떻게 다른가요? – DaImTo

+1

내 게시물의 일부 정보 (예 : 150k - 귀하의 답변의 편집 된 로그 참조)를 복사하도록 게시물을 편집 한 후에도 ... 예를 들어, 다음과 같은 방식으로 Google 애널리틱스의 세부 정보에 익숙하지 않은 독자는 "로그"가 무엇인지 알지 못합니다. 원시 이벤트 데이터 또는 처리 된 어떤 종류의 데이터를 참조하는 경우. 필터링 된 데이터. 이것은 내 대답에서 분명하지만 당신에게서 오는 것은 아닙니다. –

+1

Premium/360을 사용한다고해서 원시 데이터에 액세스 할 수있는 것은 아니며 이미 처리 된 BigQuery의 데이터 덤프에 불과합니다. –

0

클릭하여 GA 데이터를 얻으려면 데이터를 함께 참여할 수있는 방법으로 쿼리를 만들 수 있습니다.

먼저 GA에서 데이터를 준비해야합니다. 이렇게 보내면 사용자 지정 차원에 일부 해시 값이나 clientId + 일부 타임 스탬프를 추가합니다. 이렇게하면 각 쿼리 결과에 참여할 수 있습니다.

예. (이것은 우리가 Scitylana에서 그것을 할 방법입니다) GA의 추적 스크립트에 후크 아래에이 스크립트 각각의 히트 쿼리 이후 바느질의 핵심은 물론

<script> 
var BindingsDimensionIndex = CUSTOM DIMENSION INDEX HERE; 
var Version = 1; 

function overrideBuildTask() { 
    var c = window[window['GoogleAnalyticsObject'] || 'ga']; 
    var d = c.getAll(); 
    if (console) { console.log('Found ' + d.length + ' ga trackers') } 
    for (var i = 0; i < d.length; i++) { 
     var e = d[i]; var f = e.get('name'); 
     if (console) { console.log(f + ' modified') } 
     var g = e.get('buildHitTask'); 
     if (!e.buildHitTaskIsModified) { 
      e.set('buildHitTask', function(a) { 
      window['_sc_order'] = typeof window['_sc_order'] == 'undefined' ? 0 : window['_sc_order'] + 1; 
       var b = ['sl=' + Version, 'u=' + e.get('clientId'), 't=' + (new Date().getTime() + window['_sc_order'])].join('&'); 
       a.set('dimension' + BindingsDimensionIndex, b); 
       g(a); 
       if (console) { 
        console.log(f + '.' + a.get('hitType') + '.set.customDimension' + BindingsDimensionIndex + ' = ' + b) 
       } 
      }); 
      e.buildHitTaskIsModified = true 
     } 
    } 
} 
window.ga = window.ga || function() { 
    (ga.q = ga.q || []).push(arguments); 
    if (arguments[0] === 'create') { ga(overrideBuildTask) } 
}; 
ga.l = +new Date(); 

</script> 

결과가 포함되어 있는지 확인합니다 지금 당신은 몇 가지 스크립트를 만들 필요가 GA에서 가져온 모든 결과에 참여합니다.

상용 도구 무료 버전 Scitylana을 다운로드 할 수 있습니다.

Disclamer : 나는 회사 우리는 원래의 질문에 대답하기로하고 있기 때문에

3

에서 보유하고, 서버 호출 시스템을 복제하는 것보다 다른 실제 원시 Google 웹 로그 분석 로그를 볼 수있는 방법이 없습니다.

즉, 서버 호출을 수집 할 수있는 호스팅 된 웹 서버를 가리 키기 위해 analytics.js 스크립트의 수정 된 복사본을 사용해야합니다.

길고도 짧은 이야기, 당신은 귀하의 사이트가 쉽게 정상 Google 웹 로그 분석 태그와 함께 구글의 GTM로 태그 관리자를 사용하여 배포 http://www.yourdatacollectionserver.com/collect?v=1&t=pageview[...] 대신 http://www.google-analytics.com/collect?v=1&t=pageview[...]

이 에 안타를 캡처 할.

ETL 또는 Snowplow 또는 Splunk 또는 선호하는 Python/perl/Ruby 텍스트 구문 분석 엔진을 사용하여 처리 할 수있는 로그 항목을 웹 서버에 효과적으로 생성합니다.

실제 원시 로그를 관리 할 수있는 것으로 처리해야합니다. 그리고 물어보기 전에, 이것은 소급 적이지 않습니다.