데이터 분석 (DA) 4

서비스 대시보드 제작기 2편 (완)

서비스 대시보드 제작기 1편데이터를 통해 서비스를 보다. 아마존에서는 데이터가 모든 것을 지배한다(Data is King at Amazon). 데이터가 ‘지배하는’ 회사는 많다고 할 수는 없겠지만, 많은 회사들이 A/B 테스트나 지표 분석chae-data.tistory.com  지난 글에서 대시보드를 만들 모든 준비를 마쳤습니다. 사용자 이벤트 로그를 점검하고, 보강하고, 성과를 측정하기 위한 지표를 정의하고, 정의한 지표를 원천 이벤트 로그 데이터로부터 집계하여 테이블로 만들었습니다.이제 우리가 보고 싶은 지표들이 테이블에 쌓여 있습니다. 이 수치들을 대시보드에서 어떻게 표현해야 서비스를 고도화하는 데에 도움이 될 수 있을까요? 어떤 그래프를 사용해야 할지, 모든 지표를 다 보여줘야 하는지 또 다른 고..

서비스 대시보드 제작기 1편

데이터를 통해 서비스를 보다. 아마존에서는 데이터가 모든 것을 지배한다(Data is King at Amazon). 데이터가 ‘지배하는’ 회사는 많다고 할 수는 없겠지만, 많은 회사들이 A/B 테스트나 지표 분석 등을 통해 서비스를 개선하고 있습니다.제가 속해 있는 회사에서도 꾸준히 데이터 기반으로 프로덕트를 만들어나가려는 움직임이 있었는데요.그 중심에서 제가 담당하는 서비스도 지표를 통해 성과를 측정하고자 하여 대시보드의 필요성이 생기고, 데이터 분석을 할 수 있는 사람이 (제가..) 대시보드를 제작해 보기로 했습니다.이번 대시보드 제작기 시리즈를 통해 어떻게 데이터를 기반으로 서비스 지표를 정의했는지, 해당 지표를 기반으로 대시보드를 만들 때 어떤 점들을 고려했는지, 그 과정에서의 어려운 점 등을 이..

[인과추론] 데이터의 편향 제거하기; Propensity Score란?

검색어와 문서에 대한 유저 피드백 데이터를 사용해 특정 검색어로 노출되는 문서의 품질을 알기 위해 클릭율을 예측한다고 가정해 봅시다. 상위에 노출된 문서는 유저가 더 많이 클릭하기 때문에 클릭율이 좋다고 착각할 수 있습니다. 하지만 클릭 데이터에는 위치 편향(Position Bias)이 내포되어 있습니다. 사용자는 상단에 노출된 문서를 더 자주 보게 되고, 그만큼 더 클릭하며, 실제 품질보다 높은 클릭 전환율을 보일 가능성이 있습니다. 이런 편향을 제거하지 않으면 문서 품질에 대한 정확한 평가가 어렵습니다. 우리의 목표는 위치 편향을 보정하여 문서 자체 품질의 순수한 평가를 수행하는 것입니다. 본 글은 이를 해결하기 위해 인과추론 분야에서 주로 사용되는 Propensity Score 개념을 중심으로 한 ..

[SQL] 유저 데이터 분석에서 유용한 ROW_NUMBER, LAG 함수

오늘은 다음과 같은 유저 데이터 분석에서의 특정한 상황을 가정해 봅시다. 아래 질문을 해결해나가며, ROW_NUMBER와 LAG 함수의 활용에 대해 알아봅시다. 유저가 방문한 사이트를 구분해서 유저의 행동 패턴을 집계하고 싶어. 특정 이벤트 이전에 어떤 이벤트가 일어났는지 궁금해 하지만, 1번째 방문한 경우와 2번째 방문한 경우를 다르게 구분 짓고 싶어. 그러니까 내 말은.. 단순히 GROUP BY SITE 구문으로는 불가능하단 말이야. 어떻게 할 수 있을까? 본 글은 기본적인 SQL 구문을 알고 있다고 가정합니다. 그리고 윈도우 함수(LAG, ROW_NUMBER 등)의 정의를 들어본 적은 있어야 합니다. 매번 함수의 정의를 다시 찾아보고 실제 데이터 정제나 분석 업무에서 활용하기 어려운 사람을 대상으로..