Two tower 모델 논문 리뷰
3가지 시사점이 있음.
그리고, 데이터 셋 AOL4PS 이 네이버 검색 로그와 상당히 유사함. zero-shot task도 평가해 볼 수 있어서 오픈데이터 벤치마킹 해봐도 좋을 듯
user profile과 context 어떻게 융합?
prefix adapter란, encoder(yellow)와 decoder(pink)쪽에 prefix-tuning 기법을 써서, 빠른 임베딩 업데이트를 유도하는 방법. (대부분 학습 파라미터는 prohibitively large for retraining), prefix length 는 5.
original LM 은 frozen 시킨상태서 adaptor만 tuning하는 것은 speed x2
Hierarchical loss motivation: document id를 디코딩하는건 accummulated error가 존재한다는 데?.. 무슨말인지 잘모르곘네
decoding the document id by digit has problem of accumulated errors.
어찌되었든 semantic clustering 관점에서 document id의 비트가 앞쪽에 가까울수록 중요하고, 뒤쪽에 가까울수록 덜 중요하다는걸 반영하고자 함.
document_id가 카테고리 아이디 의미처럼 [대카테고리;중카테로고리;소카테고리]
이런식의 의미로 doument_id가 mapping되어야 하는것 같음.
Experiment 파트를 보면 sementic clustering 방법중 fast-pytorch-kmeans 를 써서 document들을 10개의 cluster로 그룹화하고 document_id길이를 6으로 하였다고 함. 𝑤1 is 3/6, 𝑤2 is 2/6, 𝑤3 is 1/6을 사용.
382,222 개의 query 와 user click history로 이뤄진 데이터셋. query 중 train에 등장하지 않은 19,957 개의 query가 있으니 zero-shot task도 해볼 수 있음.
T5 가 backbone model로 사용됨.
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement De- 550 langue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, 551 et al. 2019. Huggingface’s transformers: State-of-the-art natural language pro-
cessing. arXiv preprint arXiv:1910.03771 (2019)
단순 BM25보다 differentiable encoder 계열 검색 성능이 크게 높음.
논문에서 제안된 방법들이 일관되게 성능 gain들이 있지만, Relevance denoise for personal context 방법에서 성능 gain이 가장 큼
LEAVE A COMMENT