본 글에서 소개할 연구는 이커머스 업계를 이끌고 있는 아마존에서 발표한 논문입니다. LLM을 실제 이커머스 검색 시스템에 적용하는 실용적인 접근법을 제시하며, 이와 관련된 학습 및 배포 전략의 효과를 입증했습니다.
✅ 초록
Dense 임베딩 기반 시맨틱 매칭은 철자 변형에 대한 민감도와 같은 Lexical 매칭의 단점을 해결하기 위해 이커머스 상품 검색에 널리 사용됩니다. 그러나 최근 BERT와 유사한 언어 모델 인코더의 발전은 이커머스 웹사이트에 부과된 엄격한 추론 지연 시간 요구 사항으로 인해 실시간 검색에 적용되지 못했습니다. bi-encoder BERT 아키텍처는 빠른 근사 최근접 이웃 검색을 가능하게 하지만, 학습 불안정성과 교차 인코더와의 지속적인 일반화 격차로 인해 쿼리-상품 데이터에 대해 효과적으로 학습하는 것은 여전히 어려운 과제입니다. 이 연구에서는 추론 지연 시간을 낮추면서 상품 검색에 대규모 BERT와 유사한 모델을 활용할 수 있는 4단계 훈련 절차를 제안합니다. 쿼리-상품 상호 작용 사전 미세 조정을 도입하여 BERT 바이 인코더를 효과적으로 사전 훈련하여 매칭하고 일반화를 개선합니다. 이커머스 상품 데이터 셋에 대한 오프라인 실험을 통해, 저희의 접근 방식을 사용해 훈련된 소규모 BERT 기반 모델(7500만 개의 매개변수)이 유사한 추론 지연 시간을 가진 기준 DSSM 기반 모델보다 검색 관련성 지표를 최대 23%까지 향상시킨다는 것을 보여주었습니다. 소형 모델은 20배 더 큰 교사와 비교했을 때 관련성 지표가 3%만 감소합니다. 또한 대규모 온라인 A/B 테스트를 통해 정확한 상품과 대체 상품 검색에서 프로덕션 모델보다 개선된 접근 방식을 보여주었습니다.
Dense embedding-based semantic matching is widely used in e-commerce product search to address the shortcomings of lexical matching such as sensitivity to spelling variants. The recent advances in BERT-like language model encoders, have however, not found their way to realtime search due to the strict inference latency requirement im- posed on e-commerce websites. While bi-encoder BERT architectures en- able fast approximate nearest neighbor search, training them effectively on query-product data remains a challenge due to training instabilities and the persistent generalization gap with cross-encoders. In this work, we propose a four-stage training procedure to leverage large BERT-like models for product search while preserving low inference latency. We in- troduce query-product interaction pre-finetuning to effectively pretrain BERT bi-encoders for matching and improve generalization. Through offline experiments on an e-commerce product dataset, we show that a distilled small BERT-based model (75M params) trained using our ap- proach improves the search relevance metric by up to 23% over a baseline DSSM-based model with similar inference latency. The small model only suffers a 3% drop in relevance metric compared to the 20x larger teacher. We also show using online A/B tests at scale, that our approach improves over the production model in exact and substitute products retrieved.
- Keywords: Matching · Retrieval · Search · Pretrained Language Models
📝 본문
1. 소개
Introduction에서는 이커머스 검색 시스템의 핵심 역할과 기존 기술의 한계를 설명합니다.
- Lexical Search: 역인덱스 방식을 사용해 토큰을 매칭시킵니다. 상품의 이름이나 설명 같은 텍스트에 하나 이상의 쿼리 키워드가 나타나야만 상품이 검색됩니다. 수많은 장점에도 불구하고 이 전통적인 방식은 철자 변형(계란, 달걀)이나 오타(우유, 으유)에 취약하고 동의어나 의미적 유사성에 대한 이해가 불가능 하다는 치명적인 단점을 가지고 있습니다.
- Semantic Search(dense embedding): 저차원 벡터 공간에서 쿼리-상품 쌍의 관계를 잘 표현하여 어휘 일치의 한계를 효과적으로 극복한다는 장점이 있습니다. BERT와 같은 LLM은 강력한 의미적 유사성에 대한 이해가 가능하지만, latency 문제로 인해 이커머스에서는 주로 바이 인코더 아키텍처로만 제한되어 있습니다. 이는 쿼리와 상품 표현 간의 초기 상호작용으로부터 이익을 얻지 못합니다.
연구진은 Semantic Search의 기존 문제를 해결하기 위해, BERT 기반 bi-encoder 아키텍처와 효율적인 학습 전략을 통해 정확성과 효율성을 동시에 높이는 방안을 제안합니다. 이 접근법은 대규모 이커머스 환경에서 의미 기반 검색 성능을 개선하기 위한 실질적인 솔루션을 제공합니다.
2. 방법론
연구진은 대규모 상품 검색을 위해 BERT 기반 bi-encoder 아키텍처를 사용하고, 이를 효과적으로 학습시키기 위한 4단계 학습 절차를 제안했습니다. 주요 내용은 다음과 같습니다.
(1) Domain-Specific Pretraining
이 단계에서는 이커머스 상품 검색에 적합한 대규모 BERT 모델을 도메인 특화 데이터로 사전 학습합니다. 상품의 제목 및 설명은 일반 웹 텍스트와 비교하여 어휘 분포와 구조가 다르기 때문에, 일반적으로 공개된 BERT 모델을 바로 사용하면 성능이 저하될 수 있습니다. 이를 극복하기 위해, 상품 카탈로그 데이터를 활용해 BPE 어휘를 구성하고, 해당 텍스트 필드를 결합하여 표준 Masked Language Modeling (MLM) 손실을 기반으로 학습을 진행합니다.
(2) Query-Product Interaction Pre-finetuning
Bi-encoder는 효율성 면에서 유리하지만, 질의와 상품 간 상호작용 모델링이 부족해 학습 안정성과 일반화 성능이 저하될 수 있습니다. 이를 개선하기 위해, 본 연구는 쿼리와 상품 데이터를 결합하여 상호작용 정보를 학습하는 새로운 사전 미세조정 방식을 제안합니다. 이 과정에서는 의미적으로 관련성이 높은 쌍을 선택하고, 해당 텍스트를 스팬 단위로 마스킹하여 MLM 학습을 수행합니다. 또한, 필드 순서를 임의로 변경하는 방법을 도입하여 모델의 일반화 능력을 더욱 향상시킵니다.
(3) Finetuning for Matching
이 단계에서는 쿼리-상품 쌍의 유사도를 계산하는 Bi-encoder 구조를 기반으로 모델을 미세조정합니다. 모델은 쿼리와 상품의 임베딩을 생성하고, 코사인 유사도를 통해 두 벡터 간의 관련성을 평가합니다. 학습 손실은 세 부분으로 나뉘는 힌지 손실로 정의되며, positive 쌍, hard negative 쌍, random negative 쌍을 구분하여 학습합니다. 이를 통해 모델은 다양한 유형의 데이터를 효과적으로 처리할 수 있는 능력을 갖추게 됩니다.
(4) Knowledge Distillation and Realtime Inference
마지막으로, 대규모 모델의 지식을 작은 모델로 증류하여, 실시간 서비스에서 사용할 수 있도록 최적화합니다. 작은 모델은 사전 학습과 미세조정 과정을 거쳐, 코사인 유사도를 기반으로 쿼리-상품 쌍의 점수를 계산하도록 학습됩니다. 이 과정에서 평균제곱오차(MSE) 손실을 활용해, 대규모 모델의 성능을 최대한 유지하면서도 추론 속도를 대폭 개선합니다. 최종적으로, 작은 모델은 실시간으로 쿼리 임베딩을 생성하고, ANN 검색을 통해 관련 상품을 빠르게 검색하는 데 사용됩니다.
3. 실험 설정
실험에 사용된 데이터는 아래와 같습니다.
- 도메인 특화 사전 학습 데이터: 약 10억 개의 이커머스 상품 제목과 설명 데이터(14개 언어).
- 상호작용 사전 미세조정 데이터: 약 1,500만 개의 쿼리-상품 쌍(12개 언어), 약 80%는 의미적으로 관련성 있는 쌍으로 라벨링됨.
- 매칭 미세조정 데이터: 실제 이커머스 서비스에서 수집된 약 3억 3천만 개의 쿼리-상품 쌍.
- 검증 데이터: 28,000개의 쿼리와 100만 개의 상품으로 구성된 데이터셋.
실험에 사용된 모델은 연구진의 대규모 모델과 소형 모델, 그리고 기존의 비교 모델로 이루어져 있습니다.
- 대규모 모델: BERT 기반 1.5억~7.5억 파라미터를 가진 다양한 Bi-encoder.
- 소규모 모델: 7,500만~1.5억 파라미터를 가진 Bi-encoder.
- 비교 모델: DSSM, XLMRoberta 등.
성능 측정 지표는 다음과 같이 R@100와 E@100, S@100, O@100로 정의하였습니다.
- R@100: 검증 데이터에서 상위 100개 검색 결과 중 실제 구매와 관련된 비율.
- E@100, S@100, O@100: 검색 결과를 정확 일치(Exact), 대체 가능(Substitute), 기타(Other)로 분류한 후 정확성과 대체 가능성의 합계(E+S)로 측정.
4. 실험 결과
실험은 이커머스 데이터셋을 기반으로 오프라인 평가와 온라인 A/B 테스트로 진행되었습니다. 각 평가의 결과는 다음과 같습니다.
오프라인 성능 측정 결과, 대규모 모델 중 qpi-bert-ft가 가장 높은 R@100 및 E+S 점수를 기록하여, 단계별 훈련 방식의 효과를 입증하였습니다. 도메인 특화 사전 학습과 상호작용 사전 미세조정이 성능 향상에 핵심 역할을 함을 알 수 있었습니다.
온라인 성능 (A/B 테스트)를 위해 대규모 이커머스 서비스에서 small-qpi-bert-dis를 사용한 결과, 판매량은 2.07%, 매출은 1.47% 증가했습니다. 대체 상품 표시율이 증가하면서 검색 결과의 다양성이 개선됨을 보여주고, E+S@16 지표에서 약간 감소(-1.19%)했지만, 전체적인 고객 만족도는 상승했다고 합니다.
📌 Recap
본 논문은 LLM을 활용하여 대규모 이커머스 상품 검색의 성능을 개선하는 방법을 제안합니다. 연구진은 BERT 기반 bi-encoder 아키텍처를 도입하고, 학습 불안정성과 일반화 문제를 해결하기 위해 4단계 학습 절차를 설계했습니다. 이를 통해 높은 검색 정확성과 낮은 인퍼런스 지연 시간을 동시에 달성했습니다. 오프라인 실험에서 소형 모델임에도 기존 DSSM 대비 최대 23% 향상을 기록했으며, teacher 모델 대비 성능 손실이 미미했습니다. 온라인 A/B 테스트 결과, 검색 정확성과 사용자 만족도가 모두 향상됨을 확인했습니다. 이 연구는 LLM의 상용화를 위한 새로운 접근법을 제시하며, 이커머스 검색 시스템에서의 실질적 기여를 입증했습니다. 결과적으로, 효율적인 학습 및 배포 전략으로 비용 대비 성능을 극대화하는 가능성을 열었습니다.