← 블로그
2026-04-21 · edge · small

엣지 디바이스 소형 LLM: 2026년 폰·라즈베리파이·브라우저에서 뭐가 돌아가나

Gemma 2B는 라즈베리파이 5에서 돈다. Phi-4는 WebGPU로 브라우저에서. 폰은 라마 3B. 작은 하드웨어 LLM 실용 가이드.

엣지 LLM은 더 이상 데모 수준이 아니다. 2026년이면 폰, 브라우저, 라즈베리파이, 임베디드 디바이스에 쓸 만한 챗 모델을 넣을 수 있다. 뭐가 실제로 돌고 어떻게.

폰 (iOS / 안드로이드) **베스트**: Gemma 3 2B (Q4) 디스크 ~1.6GB. 아이폰 15 Pro, 픽셀 8 Pro에서 Apple Foundation Models 또는 MediaPipe로 5~12 tok/s.

앱: Apple Intelligence(내부 모델), Gemini Nano(구글 엣지 모델), 서드파티 Private LLM, MLC Chat, Layla.

쓸 만한 용도: 이메일 요약, 짧은 답장 초안, 스마트 컴포즈, 온디바이스 번역. 안 되는 것: 장문 작성, 수학 무거운 작업, 다단계 작업.

브라우저 (WebGPU) **베스트**: [WebLLM](https://webllm.mlc.ai)으로 Phi-4 Q4. 8.5GB 다운로드(첫 로드 후 캐시), 이후 브라우저 안에서 M 시리즈 맥에서 8~15 tok/s.

실제 앱: 브라우저 내 코드 어시스턴트, 서버 호출 없는 챗 위젯, 프라이버시 우선 글쓰기 도구.

제약: 2026년 4월 기준 WebGPU는 크롬/엣지만(파이어폭스+사파리는 플래그 뒤). 8GB+ 다운로드는 캐주얼 방문자엔 과함 — PWA 설치 시나리오에 베스트.

라즈베리파이 5 (8GB) **베스트**: Gemma 3 2B (Q4) 1.6GB. llama.cpp로 3~5 tok/s.

용도: 홈오토메이션 음성 어시스턴트, 스마트 스피커, IoT 내장 챗.

파이 4(4GB)는 기술적으로 TinyLlama 1.1B나 Qwen3.6 0.5B 가능하지만 품질 약함. 진짜 40달러 LLM 박스 필요 아니면 비추.

임베디드 (Coral, Jetson Nano, RK3588) 엔비디아 Jetson Orin Nano 8GB는 Phi-4 14B Q4를 6~10 tok/s. 차량 어시스턴트, 로보틱스, 산업용에 적합.

RK3588 SoC(오렌지파이 5+, Radxa Rock 5B)는 Gemma 3 2B를 벤더 NPU 가속으로 ~8 tok/s.

엣지에서 (아직) 못하는 것 30B+ 파라미터. 32K 초과 컨텍스트. 대규모 비전·언어 추론(간단한 캡셔닝은 가능, 다중 이미지 분석은 X).

멘탈 모델 엣지 LLM은 **단순·짧음·반복** 작업에 최적, 레이턴시·프라이버시·오프라인 승리가 품질 손실 상회 시. "주머니 속 GPT-5"가 아님 — "특정 작업에 충분, 이미 가진 하드웨어에서".

관련 모델