2026-04-21 · edge · small

엣지 디바이스 소형 LLM: 2026년 폰·라즈베리파이·브라우저에서 뭐가 돌아가나

Gemma 2B는 라즈베리파이 5에서 돈다. Phi-4는 WebGPU로 브라우저에서. 폰은 라마 3B. 작은 하드웨어 LLM 실용 가이드.

엣지 LLM은 더 이상 데모 수준이 아니다. 2026년이면 폰, 브라우저, 라즈베리파이, 임베디드 디바이스에 쓸 만한 챗 모델을 넣을 수 있다. 뭐가 실제로 돌고 어떻게.

폰 (iOS / 안드로이드) 베스트: Gemma 3 2B (Q4) 디스크 ~1.6GB. 아이폰 15 Pro, 픽셀 8 Pro에서 Apple Foundation Models 또는 MediaPipe로 5~12 tok/s.

앱: Apple Intelligence(내부 모델), Gemini Nano(구글 엣지 모델), 서드파티 Private LLM, MLC Chat, Layla.

쓸 만한 용도: 이메일 요약, 짧은 답장 초안, 스마트 컴포즈, 온디바이스 번역. 안 되는 것: 장문 작성, 수학 무거운 작업, 다단계 작업.

실제 앱: 브라우저 내 코드 어시스턴트, 서버 호출 없는 챗 위젯, 프라이버시 우선 글쓰기 도구.

제약: 2026년 4월 기준 WebGPU는 크롬/엣지만(파이어폭스+사파리는 플래그 뒤). 8GB+ 다운로드는 캐주얼 방문자엔 과함 — PWA 설치 시나리오에 베스트.

용도: 홈오토메이션 음성 어시스턴트, 스마트 스피커, IoT 내장 챗.

파이 4(4GB)는 기술적으로 TinyLlama 1.1B나 Qwen3.6 0.5B 가능하지만 품질 약함. 진짜 40달러 LLM 박스 필요 아니면 비추.

RK3588 SoC(오렌지파이 5+, Radxa Rock 5B)는 Gemma 3 2B를 벤더 NPU 가속으로 ~8 tok/s.