들어가며
2026년 2월 16일, 알리바바가 차세대 AI 모델 Qwen 3.5를 오픈소스로 공개했다. 설 연휴 전날이라는 전략적 타이밍에, 16일 만에 9개 모델을 쏟아내며 업계를 놀라게 했다.
플래그십 Qwen3.5-397B-A17B는 GPT-5.2와 Claude Opus 4.5를 여러 벤치마크에서 능가한다고 주장하며, 가장 작은 9B 모델조차 OpenAI의 120B 모델을 이겼다. Apache 2.0 라이선스, 201개 언어 지원, 비주얼 에이전트 기능까지.
Gemma 4(Google), Llama 4(Meta)에 이어 Meta Llama 4 완벽 정리 오픈소스 AI 삼국지의 세 번째 축 Google Gemma 4 완벽 정리 비교 읽기, Qwen 3.5를 분석한다.
1. 모델 라인업
Qwen 3.5는 Small, Medium, Large 3개 티어로 나뉘며, 16일 만에 9개 모델이 순차 공개되었다.
| 티어 | 모델 | 총 파라미터 | 활성 파라미터 | 타입 | 특징 |
|---|---|---|---|---|---|
| Small | Qwen3.5-0.8B | 0.8B | 0.8B | Dense | 초경량, 엣지 디바이스 |
| Qwen3.5-9B | 9B | 9B | Dense | 노트북 실행, gpt-oss-120B 능가 | |
| Medium | Qwen3.5-27B | 27B | 27B | Dense | 균형잡힌 성능 |
| Qwen3.5-35B-A3B | 35B | 3B | MoE | 초효율 MoE | |
| Qwen3.5-122B-A10B | 122B | 10B | MoE | Sonnet 4.5급 성능 | |
| Large | Qwen3.5-397B-A17B (Plus) | 397B | 17B | MoE | 플래그십, GPT-5.2 능가 주장 |
특히 9B 모델이 GPQA Diamond에서 81.7점을 기록해, OpenAI의 gpt-oss-120B(10배 이상 큰 모델)를 넘어선 것이 화제가 되었다.
2. 아키텍처 혁신
2-1. Linear Attention + 고밀도 MoE
Qwen 3.5의 핵심 아키텍처는 Linear Attention과 MoE의 결합이다.
# Qwen 3.5 어텐션 구조
- Full Attention : Linear Attention = 1 : 3 비율
- Full Attention 레이어: 정확한 장거리 의존성
- Linear Attention 레이어: O(n) 복잡도로 효율적 처리
# MoE 구조 (397B 기준)
- 총 파라미터: 397B
- 활성 파라미터: 17B (토큰당)
- 나머지 380B는 비활성 전문가
이 조합 덕분에 1조 파라미터급 Qwen3-Max와 비슷한 성능을 내면서, 추론 비용은 60% 절감되었다.
2-2. 비주얼 에이전트 (Visual Agentic Capabilities)
Qwen 3.5의 가장 독특한 기능이다. 단순 이미지 인식을 넘어, GUI를 직접 조작하는 에이전트로 동작한다.
| 기능 | 설명 |
|---|---|
| GUI 자율 조작 | 스마트폰/PC 화면을 인식하고 버튼 클릭, 텍스트 입력 등 자율 수행 |
| 다단계 워크플로우 | 여러 앱을 넘나드는 복잡한 작업 체인 실행 |
| 비디오 이해 | 최대 2시간 연속 비디오 + 시간적 추론 |
| 비주얼 프로그래밍 | 손으로 그린 UI 스케치 → 프론트엔드 코드 자동 생성 |
| 과학 추론 | 차트/그래프/수식 이미지 기반 문제 해결 |
# 비주얼 에이전트 사용 예시
"이 스마트폰 화면에서 카카오톡을 열고,
김팀장에게 '내일 회의 10시로 변경' 메시지를 보내줘"
→ Qwen 3.5가 화면의 GUI 요소를 인식
→ 카카오톡 아이콘 탭
→ 대화방 찾기
→ 메시지 입력 및 전송
→ 완료 확인
이건 Gemma 4나 Llama 4에는 없는 Qwen만의 차별화 기능이다.
3. 벤치마크 성능
플래그십 (397B-A17B) vs 경쟁 모델
| 벤치마크 | Qwen 3.5 (397B) | GPT-5.2 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|
| 코딩 | 능가 (주장) | - | - | - |
| 수학 추론 | 능가 (주장) | - | - | - |
| 멀티모달 | 능가 (주장) | - | - | - |
※ 알리바바의 공식 주장이며, 독립적 검증은 추가 확인이 필요하다.
소형 모델의 놀라운 성능
| 벤치마크 | Qwen3.5-9B | gpt-oss-120B | GPT-5-Nano |
|---|---|---|---|
| GPQA Diamond | 81.7 | 패배 | - |
| MMMU-Pro (비전) | 70.1 | - | 47.6 (+22.5%p) |
9B 모델이 120B 모델을 이겼다는 것은, 학습 데이터와 아키텍처 최적화가 단순 스케일링보다 중요할 수 있음을 보여준다.
Medium 시리즈
122B-A10B 모델은 Claude Sonnet 4.5, GPT-5-mini급 성능을 제공하면서, 활성 파라미터가 10B에 불과하여 비용 효율적이다.
4. Qwen 3.5 vs Gemma 4 vs Llama 4
| 항목 | Qwen 3.5 (397B) | Gemma 4 (31B) | Llama 4 Maverick |
|---|---|---|---|
| 출시일 | 2026.02.16 | 2026.04.02 | 2026.04.05 |
| 활성 파라미터 | 17B | 30.7B | 17B |
| 총 파라미터 | 397B | 30.7B | ~400B |
| 컨텍스트 | 262K | 256K | 1M |
| 언어 지원 | 201개 | 140개 | 200개 (12개 파인튜닝) |
| 멀티모달 | 텍스트+이미지+비디오 | 텍스트+이미지+비디오+오디오 | 텍스트+이미지 |
| GUI 에이전트 | O (비주얼 에이전트) | X | X |
| 사고 모드 | O | O | X |
| 라이선스 | Apache 2.0 | Apache 2.0 | Community License |
| 온디바이스 | 0.8B (엣지) | E2B (라즈베리파이) | Scout (단일 H100) |
선택 가이드
- 비주얼 에이전트/GUI 자동화 → Qwen 3.5 (유일)
- 초장문 컨텍스트 → Llama 4 Scout (10M 토큰)
- 오디오 입력 → Gemma 4 E2B/E4B (유일)
- 초경량 온디바이스 → Gemma 4 E2B (라즈베리파이)
- 가장 많은 언어 → Qwen 3.5 (201개)
- 가장 개방적 라이선스 → Qwen 3.5 또는 Gemma 4 (둘 다 Apache 2.0)
- 비용 효율 서빙 → Qwen 3.5 35B-A3B (3B 활성) 또는 Gemma 4 26B-A4B (3.8B 활성)
5. 실전 사용 가이드
5-1. Hugging Face Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
# 9B 모델 (노트북에서 실행 가능)
model_name = "Qwen/Qwen3.5-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
messages = [
{"role": "system", "content": "당신은 시니어 백엔드 개발자입니다."},
{"role": "user", "content": "Spring Boot에서 Redis 캐시 전략을 설계해줘"}
]
text = tokenizer.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(output[0], skip_special_tokens=True))
5-2. Ollama (로컬 실행)
# 가장 쉬운 방법
ollama run qwen3.5:9b # 노트북
ollama run qwen3.5:27b # 데스크톱
ollama run qwen3.5:122b-a10b # 서버 (MoE)
5-3. vLLM (프로덕션 서빙)
# MoE 모델 서빙 (효율적)
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3.5-122B-A10B-Instruct \
--tensor-parallel-size 2 \
--max-model-len 32768
# OpenAI 호환 API로 사용 가능 Spring AI로 Qwen 3.5 백엔드 통합하기
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3.5-122B-A10B-Instruct",
"messages": [{"role": "user", "content": "Hello"}]
}'
6. 중국 AI의 부상과 의미
Qwen 3.5의 등장은 몇 가지 중요한 시사점을 준다:
오픈소스 AI의 지정학
- 미국: Meta(Llama 4), Google(Gemma 4) - 영어 중심, 글로벌 배포
- 중국: Alibaba(Qwen 3.5), DeepSeek(V4 예정) - 다국어 강점, 비용 효율
DeepSeek V4는 화웨이 Ascend 칩에서 구동되는 최초의 프론티어 모델이 될 예정이며, 중국 AI의 자체 반도체 생태계 구축이 가시화되고 있다.
개발자에게 주는 의미
경쟁이 치열해질수록 개발자에게는 좋은 일이다. 2026년 4월 기준, Apache 2.0 라이선스의 프론티어급 오픈소스 모델만 3개(Gemma 4, Qwen 3.5, 그리고 부분적으로 DeepSeek)가 존재한다.
마치며
Qwen 3.5는 "작은 것이 큰 것을 이긴다"는 것을 증명한 모델이다. 9B가 120B를 이기고, 17B 활성으로 GPT-5.2에 도전한다.
특히 비주얼 에이전트 기능은 Gemma 4나 Llama 4에는 없는 독보적 차별점이다. GUI를 직접 조작하는 AI는 RPA(Robotic Process Automation)의 미래를 보여준다. MCP로 AI 에이전트 도구 통합하기
2026년의 오픈소스 AI 전쟁은 Google, Meta, Alibaba의 3파전이다. 그리고 이 경쟁의 최대 수혜자는 바로 우리 개발자들이다.
'AI' 카테고리의 다른 글
| Andrej Karpathy의 'LLM Wiki' 완전 분석 - 코드 대신 '지식'을 컴파일하는 AI 시대의 공부법 (1) | 2026.04.15 |
|---|---|
| Claude Code Ultraplan 완벽 가이드 - 터미널은 자유롭게, 계획은 클라우드에서 (0) | 2026.04.13 |
| Meta Llama 4 완벽 정리 - Scout, Maverick, Behemoth로 본 오픈소스 AI 전쟁 (0) | 2026.04.09 |
| Google Gemma 모델의 역사 - 1.0부터 4까지, 오픈소스 AI의 진화를 한눈에 (0) | 2026.04.08 |
| Google Gemma 4 완벽 정리 - 라즈베리파이에서도 돌아가는 오픈소스 AI의 새 기준 (0) | 2026.04.07 |