전체 글 39

[회고] 주니어를 벗어나야만 할 것 같은 4년 차가 되어버린

데이터 사이언티스트로 회사에서 일한 지 어느덧 3년이 흘렀습니다. 3년 차에서 4년 차로 넘어가는 지금, 하나의 책갈피를 꽂는 마음으로 회고 글을 남기고자 합니다. 회고 글을 시작하며먼저, 이 글을 더 잘 이해할 수 있도록 커리어 여정을 간략히 설명해 볼까 합니다.고등학교 졸업식을 하기 전부터 공부방에서 일을 했습니다. 아르바이트였지만, 학생들을 가르치던 저의 열정이나 준비 시간, 마음가짐은 커리어라고 인정해 주고 싶어요. 대학생 내내 인턴을 하기 직전까지 3년 반, 공부방에서 일하던 중이나 인턴십이 끝난 후 과외로도 1년 반 가까이 학생을 가르치는 일을 했습니다. 정규직으로 입사하기 전까지 약 5년간, 제가 아는 것을 설명하는 일과 함께해 왔습니다.공공 기관에서 인턴십을 했습니다. 좋은 팀장님과 인턴 ..

Activities/회고 2025.03.30

AWS Lambda ML 모델 서빙용으로 사용하기

AWS Lambda보통 어떤 경우에 사용할까요?AWS Lambda는 서버리스 컴퓨팅 환경을 제공하여 인프라를 관리할 필요 없이 코드 실행이 가능하도록 합니다.이를 통해 사용자는 서버 관리 부담 없이 특정 이벤트 발생 시 자동으로 실행되는 코드를 작성할 수 있습니다.AWS 가이드에서는 ‘Lambda는 빠르게 스케일 업해야 하고 수요가 없을 때는 0으로 스케일 다운해야 하는 애플리케이션 시나리오에 이상적인 컴퓨팅 서비스’라고 소개하고 있습니다.일반적으로는 다음과 같은 이유로 람다 사용을 고려하게 됩니다.운영 비용 절감: Lambda는 사용한 만큼만 비용을 지불하는 구조이므로, 유휴 상태에서도 비용이 발생하는 서버 기반 인프라보다 경제적입니다. 특히 트래픽이 일정하지 않고, 간헐적으로 실행되는 작업에서는 매우..

ML & AI/MLOps 2025.03.08

BigQuery의 Procedural Language로 스크립트 작성하기

1. BigQuery Procedural Language란?BigQuery는 SQL 기반의 데이터 분석 도구이지만, 일반적인 SQL 쿼리만으로는 복잡한 로직을 처리하기 어려울 때가 있습니다. 이런 경우, BigQuery Procedural Language (SQL 스타일의 스크립트라고 생각하면 됩니다.) 를 활용하면 변수 선언, 조건문, 반복문 등을 사용하여 복잡한 로직을 보다 직관적으로 구현할 수 있습니다.BigQuery에서 제공하는 Procedural Language를 사용하면 다음과 같은 작업이 가능합니다. • 변수를 활용한 동적 SQL 실행 • 조건문 (IF, CASE) • 반복문 (LOOP, WHILE, FOR) • 예외 처리 (BEGIN ... EXCEPTION ... END)이번 글에서는 실..

[논문 리뷰] Web-scale Semantic Product Search With Large Language Models

본 글에서 소개할 연구는 이커머스 업계를 이끌고 있는 아마존에서 발표한 논문입니다. LLM을 실제 이커머스 검색 시스템에 적용하는 실용적인 접근법을 제시하며, 이와 관련된 학습 및 배포 전략의 효과를 입증했습니다.논문 링크✅ 초록Dense 임베딩 기반 시맨틱 매칭은 철자 변형에 대한 민감도와 같은 Lexical 매칭의 단점을 해결하기 위해 이커머스 상품 검색에 널리 사용됩니다. 그러나 최근 BERT와 유사한 언어 모델 인코더의 발전은 이커머스 웹사이트에 부과된 엄격한 추론 지연 시간 요구 사항으로 인해 실시간 검색에 적용되지 못했습니다.  bi-encoder BERT 아키텍처는 빠른 근사 최근접 이웃 검색을 가능하게 하지만, 학습 불안정성과 교차 인코더와의 지속적인 일반화 격차로 인해 쿼리-상품 데이..

ML & AI/LLM 2025.01.25

서비스 대시보드 제작기 2편 (완)

서비스 대시보드 제작기 1편데이터를 통해 서비스를 보다. 아마존에서는 데이터가 모든 것을 지배한다(Data is King at Amazon). 데이터가 ‘지배하는’ 회사는 많다고 할 수는 없겠지만, 많은 회사들이 A/B 테스트나 지표 분석chae-data.tistory.com  지난 글에서 대시보드를 만들 모든 준비를 마쳤습니다. 사용자 이벤트 로그를 점검하고, 보강하고, 성과를 측정하기 위한 지표를 정의하고, 정의한 지표를 원천 이벤트 로그 데이터로부터 집계하여 테이블로 만들었습니다.이제 우리가 보고 싶은 지표들이 테이블에 쌓여 있습니다. 이 수치들을 대시보드에서 어떻게 표현해야 서비스를 고도화하는 데에 도움이 될 수 있을까요? 어떤 그래프를 사용해야 할지, 모든 지표를 다 보여줘야 하는지 또 다른 고..

서비스 대시보드 제작기 1편

데이터를 통해 서비스를 보다. 아마존에서는 데이터가 모든 것을 지배한다(Data is King at Amazon). 데이터가 ‘지배하는’ 회사는 많다고 할 수는 없겠지만, 많은 회사들이 A/B 테스트나 지표 분석 등을 통해 서비스를 개선하고 있습니다.제가 속해 있는 회사에서도 꾸준히 데이터 기반으로 프로덕트를 만들어나가려는 움직임이 있었는데요.그 중심에서 제가 담당하는 서비스도 지표를 통해 성과를 측정하고자 하여 대시보드의 필요성이 생기고, 데이터 분석을 할 수 있는 사람이 (제가..) 대시보드를 제작해 보기로 했습니다.이번 대시보드 제작기 시리즈를 통해 어떻게 데이터를 기반으로 서비스 지표를 정의했는지, 해당 지표를 기반으로 대시보드를 만들 때 어떤 점들을 고려했는지, 그 과정에서의 어려운 점 등을 이..

[인과추론] 데이터의 편향 제거하기; Propensity Score란?

검색어와 문서에 대한 유저 피드백 데이터를 사용해 특정 검색어로 노출되는 문서의 품질을 알기 위해 클릭율을 예측한다고 가정해 봅시다. 상위에 노출된 문서는 유저가 더 많이 클릭하기 때문에 클릭율이 좋다고 착각할 수 있습니다. 하지만 클릭 데이터에는 위치 편향(Position Bias)이 내포되어 있습니다. 사용자는 상단에 노출된 문서를 더 자주 보게 되고, 그만큼 더 클릭하며, 실제 품질보다 높은 클릭 전환율을 보일 가능성이 있습니다. 이런 편향을 제거하지 않으면 문서 품질에 대한 정확한 평가가 어렵습니다. 우리의 목표는 위치 편향을 보정하여 문서 자체 품질의 순수한 평가를 수행하는 것입니다. 본 글은 이를 해결하기 위해 인과추론 분야에서 주로 사용되는 Propensity Score 개념을 중심으로 한 ..

[Kubeflow] Pipeline 작성 가이드

Kubeflow는 머신러닝 워크플로우를 자동화하고 확장할 수 있도록 도와주는 오픈소스 플랫폼입니다. 본 글에서는 Kubeflow Pipeline을 작성하는 기본 가이드를 예시 코드와 함께 제공하며, pipeline 작성 시 제가 경험했던 문제와 이를 해결한 방법도 함께 다루고자 합니다. * 본 글은 kubeflow 1.8 버전을 기준으로 작성되었습니다. 1. 개요Kubeflow Pipeline은 머신러닝 워크플로우를 구성하기 위한 도구로, 각 컴포넌트를 개별적으로, 컨테이너로 실행하여 재사용할 수 있는 파이프라인을 구축할 수 있도록 합니다. 각 컴포넌트는 독립적으로 실행되며, 데이터 파이프라인을 통해 다른 컴포넌트로 데이터를 전달할 수 있습니다. Pipeline을 작성할 때 각 컴포넌트는 컨테이너로 구성..

ML & AI/MLOps 2024.10.27

[글또] 10기를 시작하며; 인풋은 많지만 아웃풋이 없는 사람

본 글은 스스로 메타인지를 높이기 위해 작성한 KPT 형식의 글또 10기 다짐 글입니다.  Problem올해 초부터 무엇인가를 이뤄내야 한다는 부담감에 시달렸다.리서치에서 그치지 않고 실제 서비스에서 성과를 낼 타이밍이었기 때문이다.회사에선 이제 만으로 2년 차가 지나면서 적응이 완벽히 되었다고 생각했다. (하지만 여전히 가끔 아니라는 생각이 든다….ㅎ)사회 생활도 시작한 지 3년이 넘었고, 주변 사람들과의 관계도 안정적이라고 생각했다. 스터디도 꾸준히 하고 있고, 책도 열심히 읽는다. 하지만 최근에 예상한 일정대로 업무를 진행하지 못한다거나, 공부할 때의 집중력, 스케줄 관리 등 모든 면에서 벅찬 일상을 버텨내고 있다고 판단하게 되었다. 그렇다면 어떤 부분이 일을 틀어지게 만들고 있을까 고민해 보았다..

Activities/회고 2024.10.13

[강의 후기] 유데미(Udemy) Python 부트캠프 : 100개의 프로젝트로 Python 개발 완전 정복

글또 9기 참여 중에 좋은 기회로 유데미의 강의를 수강할 수 있게 되었습니다. 유데미 강의는 처음 들어보는데요! 우선 저는 올해 다시 파이썬 기초부터 중급, 고급까지 차근차근 다져나갈 계획을 가지고 있었습니다. 그래서 'Python 부트캠프 : 100개의 프로젝트로 Python 개발 완전 정복' 강의를 신청했습니다. 이번 글은 해당 강의에 대한 후기를 공유하고자 합니다. 강의 소개 전세계 10만명이 넘게 수강한 Python 수업! 데이터사이언스, 웹 개발, 크롤링, GUI 프로그래밍, 게임 등 Python을 통해 개발할 수 있는 모든 것을 다뤄보는 All-in-one 코스 올인원 코스라는 설명이 아주 적합한 강의입니다. 누구나 쉽게 따라 할 수 있는 실전 예제와 함께 파이썬의 기초부터 심화 내용까지 모두..

Activities/리뷰 2024.03.31