들어가며최근 사내 위키 검색에 LLM을 얹어보는 사이드 프로젝트를 시작했습니다. 보안 요건상 외부 API는 못 쓰고, 노트북 한 대에서 돌아가야 한다는 제약이 있었습니다. 후보를 추리다 보니 결국 Gemma 3와 Gemma 4 사이에서 고민하게 됐는데, "두 모델이 뭐가 그렇게 다르길래?"라는 질문에 스스로 답을 못 하고 있는 제 모습을 발견했습니다.백엔드 개발자라면 비슷한 상황이 익숙할 것입니다. 팀에서 "RAG 한번 해볼까?"라는 이야기가 나오고, 몇 주 후 슬쩍 "온프레미스로 돌릴 수 있는 모델 하나 골라줘"라는 요청이 돌아옵니다. Llama, Qwen, Gemma, Mistral — 이름은 많이 들었지만 각 모델이 언제 뭐가 어떻게 바뀌었는지, 어떤 기준으로 골라야 하는지 정리된 글을 찾기는 쉽지..