2026-04-23 · local · tutorial
2026년 노트북에서 LLM 돌리기: M 시리즈, 양자화, 실제 작동하는 것
단계별: 양자화 선택, Ollama 또는 LM Studio 설치, 7B~14B 모델을 맥북·16GB GPU에서 돌리기. 멘탈 잃지 않는 법.
2024년엔 맥북에서 7B 돌리려면 기다림이 필요했다. 2026년 베이스 M4 맥북 에어(16GB)는 Phi-4나 라마 4 8B를 25~40 토큰/초로 돌린다 — 실제 코딩 어시스턴트로 쓸 만함. 주말 안 날리고 세팅하는 법.
모델 먼저 고르기 탄탄한 디폴트 셋:
- 라마 4 8B Q4: 디스크 4.7GB. 베스트 일반 채팅. 가장 완성도 높음.
- Phi-4 Q4: 디스크 8.5GB. 수학·코드·구조화 추론 베스트.
- Qwen3.6 7B Q4: 디스크 4.5GB. 베스트 다국어 + 비전.
16GB 맥/PC면 셋 다 여유. 8GB면 라마 4 8B Q4만 편함, 다른 앱 닫아야.
Ollama 설치 (가장 쉬움) ollama.com → 다운로드 → 설치. 터미널에서:
ollama pull llama4:8b
ollama run llama4:8b
끝. 터미널에 채팅 UI. GUI 원하면 Open WebUI(도커, 5분).
LM Studio 설치 (베스트 GUI) lmstudio.ai → 다운로드 → 설치. 인앱 브라우저에서 모델 검색 → 다운로드 → "Load model". 빌트인 채팅, 모델 브라우저, OpenAI API 호환 로컬 서버 엔드포인트 — GPT용 코드가 URL 한 줄 바꾸고 노트북에서 동작.
양자화 짧게 Q8 = 8비트 가중치, 거의 무손실, 파일 큼. Q4_K_M = 4비트, ~75% 작아짐, ~2% 품질 손실. Q2 = 2비트, 훨씬 작음, 품질 손실 체감. 채팅은 **Q4_K_M**, RAM 여유 있고 코드면 Q5_K_M.
M 시리즈 맥은? 유니파이드 메모리라 GPU·CPU가 RAM 공유. Ollama·LM Studio 둘 다 메탈 가속 자동. 규칙: 모델 파일 ≤ (RAM - 4GB). 16GB 맥 → 모델 파일 ~12GB까지. M3 Max 36GB → ~32GB(라마 4 70B Q4 들어감).
속도 기대치 (M4 16GB 실측) - 라마 4 8B Q4: 35 tok/s - Phi-4 Q4: 28 tok/s - Qwen3.6 7B Q4: 32 tok/s - Gemma 3 9B Q4: 30 tok/s
20 tok/s 이상이면 채팅 편함. 10 tok/s 이하면 답답.
흔한 실수 1. **RAM보다 큰 모델 로드**: 맥OS 스왑 → 비참. (RAM - 4GB) 아래로. 2. **Q4면 충분한데 Q8 사용**: 파일 4배, 2배 느림, 채팅 품질 거의 동일. 3. **GPU 가능한데 CPU에서 돌림**: Ollama·LM Studio 자동 감지지만 잘못 설정시 5 tok/s 미만. 4. **인스트럭트 대신 베이스 모델 사용**: 베이스는 자동완성, 인스트럭트는 챗. "-Instruct" 또는 "-Chat" suffix가 정답.
첫 모델이면 Ollama에서 라마 4 8B Q4부터. 작동 확인 후 Phi-4로 바꿔서 비교. 이게 전체 온보딩.