AI

Alibaba Qwen 3.5 완벽 정리 - 201개 언어, GPT-5.2를 넘었다는 중국의 오픈소스 AI

백엔드 개발자 김승원 2026. 4. 9. 16:07

들어가며

2026년 2월 16일, 알리바바가 차세대 AI 모델 Qwen 3.5를 오픈소스로 공개했다. 설 연휴 전날이라는 전략적 타이밍에, 16일 만에 9개 모델을 쏟아내며 업계를 놀라게 했다.

플래그십 Qwen3.5-397B-A17B는 GPT-5.2와 Claude Opus 4.5를 여러 벤치마크에서 능가한다고 주장하며, 가장 작은 9B 모델조차 OpenAI의 120B 모델을 이겼다. Apache 2.0 라이선스, 201개 언어 지원, 비주얼 에이전트 기능까지.

Gemma 4(Google), Llama 4(Meta)에 이어 Meta Llama 4 완벽 정리 오픈소스 AI 삼국지의 세 번째 축 Google Gemma 4 완벽 정리 비교 읽기, Qwen 3.5를 분석한다.

1. 모델 라인업

Qwen 3.5는 Small, Medium, Large 3개 티어로 나뉘며, 16일 만에 9개 모델이 순차 공개되었다.

티어 모델 총 파라미터 활성 파라미터 타입 특징
Small Qwen3.5-0.8B 0.8B 0.8B Dense 초경량, 엣지 디바이스
Qwen3.5-9B 9B 9B Dense 노트북 실행, gpt-oss-120B 능가
Medium Qwen3.5-27B 27B 27B Dense 균형잡힌 성능
Qwen3.5-35B-A3B 35B 3B MoE 초효율 MoE
Qwen3.5-122B-A10B 122B 10B MoE Sonnet 4.5급 성능
Large Qwen3.5-397B-A17B (Plus) 397B 17B MoE 플래그십, GPT-5.2 능가 주장

특히 9B 모델이 GPQA Diamond에서 81.7점을 기록해, OpenAI의 gpt-oss-120B(10배 이상 큰 모델)를 넘어선 것이 화제가 되었다.

2. 아키텍처 혁신

2-1. Linear Attention + 고밀도 MoE

Qwen 3.5의 핵심 아키텍처는 Linear Attention과 MoE의 결합이다.

# Qwen 3.5 어텐션 구조
- Full Attention : Linear Attention = 1 : 3 비율
- Full Attention 레이어: 정확한 장거리 의존성
- Linear Attention 레이어: O(n) 복잡도로 효율적 처리

# MoE 구조 (397B 기준)
- 총 파라미터: 397B
- 활성 파라미터: 17B (토큰당)
- 나머지 380B는 비활성 전문가

이 조합 덕분에 1조 파라미터급 Qwen3-Max와 비슷한 성능을 내면서, 추론 비용은 60% 절감되었다.

2-2. 비주얼 에이전트 (Visual Agentic Capabilities)

Qwen 3.5의 가장 독특한 기능이다. 단순 이미지 인식을 넘어, GUI를 직접 조작하는 에이전트로 동작한다.

기능 설명
GUI 자율 조작 스마트폰/PC 화면을 인식하고 버튼 클릭, 텍스트 입력 등 자율 수행
다단계 워크플로우 여러 앱을 넘나드는 복잡한 작업 체인 실행
비디오 이해 최대 2시간 연속 비디오 + 시간적 추론
비주얼 프로그래밍 손으로 그린 UI 스케치 → 프론트엔드 코드 자동 생성
과학 추론 차트/그래프/수식 이미지 기반 문제 해결
# 비주얼 에이전트 사용 예시
"이 스마트폰 화면에서 카카오톡을 열고,
 김팀장에게 '내일 회의 10시로 변경' 메시지를 보내줘"

→ Qwen 3.5가 화면의 GUI 요소를 인식
→ 카카오톡 아이콘 탭
→ 대화방 찾기
→ 메시지 입력 및 전송
→ 완료 확인

이건 Gemma 4나 Llama 4에는 없는 Qwen만의 차별화 기능이다.

3. 벤치마크 성능

플래그십 (397B-A17B) vs 경쟁 모델

벤치마크 Qwen 3.5 (397B) GPT-5.2 Claude Opus 4.5 Gemini 3 Pro
코딩 능가 (주장) - - -
수학 추론 능가 (주장) - - -
멀티모달 능가 (주장) - - -

※ 알리바바의 공식 주장이며, 독립적 검증은 추가 확인이 필요하다.

소형 모델의 놀라운 성능

벤치마크 Qwen3.5-9B gpt-oss-120B GPT-5-Nano
GPQA Diamond 81.7 패배 -
MMMU-Pro (비전) 70.1 - 47.6 (+22.5%p)

9B 모델이 120B 모델을 이겼다는 것은, 학습 데이터와 아키텍처 최적화가 단순 스케일링보다 중요할 수 있음을 보여준다.

Medium 시리즈

122B-A10B 모델은 Claude Sonnet 4.5, GPT-5-mini급 성능을 제공하면서, 활성 파라미터가 10B에 불과하여 비용 효율적이다.

4. Qwen 3.5 vs Gemma 4 vs Llama 4

항목 Qwen 3.5 (397B) Gemma 4 (31B) Llama 4 Maverick
출시일 2026.02.16 2026.04.02 2026.04.05
활성 파라미터 17B 30.7B 17B
총 파라미터 397B 30.7B ~400B
컨텍스트 262K 256K 1M
언어 지원 201개 140개 200개 (12개 파인튜닝)
멀티모달 텍스트+이미지+비디오 텍스트+이미지+비디오+오디오 텍스트+이미지
GUI 에이전트 O (비주얼 에이전트) X X
사고 모드 O O X
라이선스 Apache 2.0 Apache 2.0 Community License
온디바이스 0.8B (엣지) E2B (라즈베리파이) Scout (단일 H100)

선택 가이드

  • 비주얼 에이전트/GUI 자동화 → Qwen 3.5 (유일)
  • 초장문 컨텍스트 → Llama 4 Scout (10M 토큰)
  • 오디오 입력 → Gemma 4 E2B/E4B (유일)
  • 초경량 온디바이스 → Gemma 4 E2B (라즈베리파이)
  • 가장 많은 언어 → Qwen 3.5 (201개)
  • 가장 개방적 라이선스 → Qwen 3.5 또는 Gemma 4 (둘 다 Apache 2.0)
  • 비용 효율 서빙 → Qwen 3.5 35B-A3B (3B 활성) 또는 Gemma 4 26B-A4B (3.8B 활성)

5. 실전 사용 가이드

5-1. Hugging Face Transformers

from transformers import AutoModelForCausalLM, AutoTokenizer

# 9B 모델 (노트북에서 실행 가능)
model_name = "Qwen/Qwen3.5-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

messages = [
    {"role": "system", "content": "당신은 시니어 백엔드 개발자입니다."},
    {"role": "user", "content": "Spring Boot에서 Redis 캐시 전략을 설계해줘"}
]

text = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
)
inputs = tokenizer([text], return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(output[0], skip_special_tokens=True))

5-2. Ollama (로컬 실행)

# 가장 쉬운 방법
ollama run qwen3.5:9b       # 노트북
ollama run qwen3.5:27b      # 데스크톱
ollama run qwen3.5:122b-a10b # 서버 (MoE)

5-3. vLLM (프로덕션 서빙)

# MoE 모델 서빙 (효율적)
python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen3.5-122B-A10B-Instruct \
    --tensor-parallel-size 2 \
    --max-model-len 32768

# OpenAI 호환 API로 사용 가능 Spring AI로 Qwen 3.5 백엔드 통합하기
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen3.5-122B-A10B-Instruct",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

6. 중국 AI의 부상과 의미

Qwen 3.5의 등장은 몇 가지 중요한 시사점을 준다:

오픈소스 AI의 지정학

  • 미국: Meta(Llama 4), Google(Gemma 4) - 영어 중심, 글로벌 배포
  • 중국: Alibaba(Qwen 3.5), DeepSeek(V4 예정) - 다국어 강점, 비용 효율

DeepSeek V4는 화웨이 Ascend 칩에서 구동되는 최초의 프론티어 모델이 될 예정이며, 중국 AI의 자체 반도체 생태계 구축이 가시화되고 있다.

개발자에게 주는 의미

경쟁이 치열해질수록 개발자에게는 좋은 일이다. 2026년 4월 기준, Apache 2.0 라이선스의 프론티어급 오픈소스 모델만 3개(Gemma 4, Qwen 3.5, 그리고 부분적으로 DeepSeek)가 존재한다.

마치며

Qwen 3.5는 "작은 것이 큰 것을 이긴다"는 것을 증명한 모델이다. 9B가 120B를 이기고, 17B 활성으로 GPT-5.2에 도전한다.

특히 비주얼 에이전트 기능은 Gemma 4나 Llama 4에는 없는 독보적 차별점이다. GUI를 직접 조작하는 AI는 RPA(Robotic Process Automation)의 미래를 보여준다. MCP로 AI 에이전트 도구 통합하기

2026년의 오픈소스 AI 전쟁은 Google, Meta, Alibaba의 3파전이다. 그리고 이 경쟁의 최대 수혜자는 바로 우리 개발자들이다.