Back to Blog
BlogMarch 31, 20264

Flash-MoE란 무엇인가? 노트북에서 397B 파라미터 AI 모델 실행하기

Flash-MoE란 무엇인가? 노트북에서 397B 파라미터 AI 모델 실행하기

핵심 요약

  • Flash-MoE는 경량의 순수 C/Metal 추론 엔진으로, 48GB 통합 메모리를 갖춘 MacBook Pro에서 초당 4.4개 이상의 토큰 처리 속도로 전체 397B 파라미터 Qwen3.5-397B-A17B Mixture-of-Experts(MoE) 모델을 실행합니다 — 토큰당 활성 파라미터는 17B만 사용합니다.
  • 209GB(4비트 양자화) 모델은 SSD에서 직접 스트리밍됩니다. 각 레이어당 4개의 활성 전문가만 필요 시 로드되어 RAM 사용량을 6GB 미만으로 유지하며, macOS 페이지 캐시를 활용해 71%의 히트율을 달성합니다.
  • 벤치마크에 따르면 FMA 최적화 디양자화 커널과 지연된 GPU 계산 덕분에 최대 12% 속도 향상이 가능하며, 단순 오프로딩 접근법을 능가하면서 도구 호출을 포함한 프로덕션 수준의 출력을 제공합니다.
  • 분석 결과, Flash-MoE는 MoE 희소성과 Apple의 "LLM in a Flash" 원칙을 기반으로 하지만, 수동 튜닝된 Metal 셰이더, 직렬화된 GPU/SSD 파이프라이닝, 그리고 커스텀 캐싱 오버헤드를 제로로 유지하면서 400B 급 모델로 확장합니다.
  • 커뮤니티 피드백에 따르면, 이 접근법은 개별 개발자들이 최첨단 MoE 모델에 접근할 수 있게 하여 인프라 비용을 대폭 절감하고 진정한 로컬 에이전트 AI를 가능케 합니다.

Mixture-of-Experts(MoE) 이해와 그 중요성

Mixture-of-Experts 아키텍처는 조밀한(dense) 트랜스포머 모델의 확장 한계를 해결하기 위해 각 토큰에 대해 파라미터의 작은 부분집합만 활성화합니다. Qwen3.5-397B-A17B에서 이는 총 3970억 개의 파라미터를 의미하지만, 라우터가 각 레이어당 512개 중 4개의 라우팅 전문가 + 1개의 공유 전문가를 선택함으로써 순전파(forward pass) 당 활성 파라미터는 단 170억 개만 사용합니다.

Alibaba의 벤치마크에 따르면, 이 하이브리드 설계 — 45개 레이어에서 게이트 델타넷(Gated DeltaNet, 선형 어텐션)과 15개 레이어에서 완전 어텐션을 결합 — 는 추론 계산을 준선형(sub-linear)으로 유지하면서 최첨단 추론, 코딩 및 멀티모달 성능을 제공합니다. 그러나 모델 규모 자체(양자화 후에도 수백 기가바이트)로 인해 역사적으로 이러한 모델은 다중 GPU 클러스터나 클라우드 API에 국한되었습니다.

Flash-MoE는 MoE의 고유한 희소성을 활용하여 이 방정식을 바꿉니다: 대부분의 전문가는 비활성 상태로 유지되어 전체 모델을 상주시키기보다 필요 시 로드할 수 있게 합니다.

대규모 MoE 추론의 하드웨어 과제

기존 MoE 추론 엔진(vLLM, DeepSpeed, 또는 Apple Silicon의 MLX 조차도)은 모델이 RAM을 초과할 때 메모리 대역폭과 I/O로 어려움을 겪습니다. 209GB 4비트 모델의 경우:

  • 전체 로딩에는 200GB 이상의 통합 메모리가 필요합니다.
  • 단순 SSD 오프로딩은 전문가에 대한 임의 접근으로 인한 치명적인 지연을 초래합니다.
  • 커스텀 캐시로 인한 GPU 메모리 압박이 성능을 더욱 저하시킵니다.

분석에 따르면 DRAM 전용 오프로딩과 같은 기존 에지 디바이스 솔루션은 ~100B 파라미터를 넘어서면 비실용적이 됩니다. Flash-MoE는 급진적인 "OS를 신뢰하라" 철학을 통해 이를 해결하며, macOS 페이지 캐시를 전문가 관리자로 취급하고 Python, 프레임워크 및 커스텀 LRU 레이어를 완전히 제거합니다.

Flash-MoE란 정확히 무엇인가요?

Flash-MoE는 소비자용 Apple Silicon 하드웨어에서 완전한 Qwen3.5-397B-A17B 모델을 실행하기 위해 개발된 오픈소스 순수 C/Metal 추론 엔진입니다. 2026년 3월에 공개된 이 프로젝트는 397B MoE 모델이 노트북에서 직접 프로덕션 수준의 성능 — 구조화된 JSON, 도구 호출, 그리고 긴 컨텍스트 추론을 포함하여 — 을 제공할 수 있음을 보여줍니다.

주요 사양:

  • 모델: Qwen3.5-397B-A17B (총 397B / 활성 파라미터 17B, 60 계층, 계층당 512 전문가, 기본 컨텍스트 262K)
  • 양자화: 4-bit 프로덕션 (디스크 상 209GB) 또는 실험적 2-bit (120GB)
  • 하드웨어 타겟: MacBook Pro M3 Max (48GB 통합 메모리, 1TB SSD 17.5 GB/s 속도)
  • 속도: 4.36 토큰/초 (4-bit, FMA 커널); 7.05 토큰/초 (2-bit 웜 캐시) 피크 속도
  • 메모리 사용량: 활성 RAM 약 5.5–6GB; 비전문가 가중치는 mmap 처리, 전문가는 스트리밍

프레임워크 중심 런타임과 달리, Flash-MoE는 수동 작성된 Metal 컴퓨트 셰이더 (~1,200 줄)와 약 ~7,000줄의 C 추론 코어로 구성된 단일 네이티브 바이너리로 컴파일됩니다.

기술 심층 분석: Flash-MoE를 구동하는 핵심 최적화

1. macOS 페이지 캐시를 활용한 SSD 전문가 스트리밍

계층당 4개의 활성 전문가(각 약 6.75MB)만 Grand Central Dispatch를 사용한 병렬 pread() 호출로 로드됩니다. 전체 209GB 모델은 SSD에 유지되며, macOS 페이지 캐시가 사용자 정의 코드 없이 자동으로 상주성을 처리하여 자연스러운 71% 히트율을 달성합니다.

이 접근법은 GPU 메모리 압력과 추가 지연을 초래했던 수동 제작된 Metal LRU 캐시나 malloc+LZ4 압축 해제를 능가합니다. 직렬화된 GPU → SSD → GPU 파이프라인은 Apple Silicon의 공유 메모리 컨트롤러와 완벽하게 정렬되어 DMA 경합을 피합니다.

2. FMA 최적화된 디양자화 커널

12%의 중요한 속도 향상은 디양자화 코드를 재작성하여 얻었습니다:

// 이전 (순진한 방법)
float x = nibble * scale + bias;

// 이후 (FMA 최적화)
fma(nibble, precomputed_scale_x, precomputed_bias_x);

scale * xbias * x를 사전 계산함으로써, 커널은 디양자화 + 곱셈-덧셈을 단일 퓨즈드 곱셈–덧셈 명령어로 통합하여 GPU의 FMA 유닛을 ~418 GiB/s로 포화시킵니다.

저장소에 문서화된 58개의 실험은 이 최적화를 다양한 양자화 수준과 배치 크기에서 검증합니다.

3. 수동 조정된 Metal 컴퓨트 셰이더

사용자 정의 커널은 모든 연산을 융합합니다:

  • SIMD 축소와 공유 입력 캐싱을 사용한 4-bit / 2-bit 타일링된 행렬-벡터 곱셈
  • 퓨즈드 SwiGLU 활성화
  • 2-패스 RMSNorm (제곱합 + 적용)
  • Q 디인터리브를 포함한 GPU 네이티브 RoPE
  • 전체 어텐션 레이어를 위한 배치 어텐션
  • MoE 결합 + 잔차 + 시그모이드 게이팅을 단일 패스로 처리

지연된 명령 버퍼 제출 (CMD3)을 통해 GPU 전문가 계산이 CPU 라우팅과 다음 계층 준비와 겹쳐 실행되어 CPU 왕복을 제거합니다.

4. Gated DeltaNet 레이어를 위한 Accelerate BLAS 활용

45개의 선형 어텐션 레이어는 64-헤드 상태 행렬 업데이트에 Apple의 cblas_sscal, cblas_sgemv, 그리고 cblas_sger를 활용합니다 — 스칼라 루프보다 64% 더 빠릅니다.

5. 메모리 안전 설계

.

  • 비전문가 가중치: 읽기 전용 mmap으로 5.5GB
  • Metal 스크래치 버퍼: ~200MB
  • 총 활성 메모리 사용량: ~6GB
  • 48GB 시스템에서도 OOM(메모리 부족) 위험 제로

성능 벤치마크와 실제 결과

구성토큰/초품질디스크 크기참고 사항
4비트 + FMA 커널4.36우수209GB프로덕션용; 완전한 도구 호출 지원
4비트 기준선3.90우수209GBFMA 최적화 이전 버전
2비트 + trust OS5.74양호*120GB*JSON/도구 호출 불안정
2비트 피크 (워밍 캐시)7.05양호*120GB단일 토큰 버스트

레이어별 평균 타이밍 4.28ms (4비트), SSD I/O(2.41ms)가 지배적이지만 GPU 작업과 완벽하게 중첩됩니다. M3 Max에서의 커뮤니티 테스트는 128K+ 컨텍스트에서도 일관된 초당 4+ 토큰을 보고합니다.

기존 엔진과의 비교:

**MLX / llama.cpp MoE 오프로드**: 파이썬 오버헤드와 덜 공격적인 퓨전으로 인해 더 높은 지연 시간과 낮은 품질.
  • vLLM / DeepSpeed GPU 클러스터: 수십 배 더 높은 비용; Flash-MoE는 노트북 전력 소모 수준으로 비슷한 품질을 달성. .
  • 학계의 SSD 오프로더: Flash-MoE의 "trust OS" 접근 방식이 실제 하드웨어 테스트에서 LRU/LFU 캐시를 2.6배 앞섭니다(관련 엣지 MoE 연구에서 검증됨).

연구에서의 관련 FlashMoE 혁신

"FlashMoE"라는 용어는 비슷한 시기에 발표된 두 학술 작업에도 등장합니다:

**FlashMoE: Fast Distributed MoE in a Single Kernel** (NeurIPS 2025)는 전문가 계산과 GPU 간 통신을 하나의 영속 커널로 융합하여, 8×H100 노드에서 최대 **9배 GPU 활용률**과 **5.7배 처리량**을 제공합니다.
  • FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement (arXiv Jan 2026)는 엣지 장치를 위한 적응형 최근접-빈도 캐싱을 도입하여 기존 정책 대비 적중률을 51% 향상시킵니다.

구현 방식은 다르지만, 모두 낮은 지연 시간과 하드웨어 공동 설계된 MoE 실행을 강조하기 위해 "Flash" 접두사를 공유합니다. 노트북 엔진은 소비자 접근성과 종속성 제로 설계로 두드러집니다.

온디바이스 및 에이전트 AI에 대한 함의

Flash-MoE는 MoE 희소성과 적극적인 시스템 엔지니어링을 결합해 트릴리언 파라미터급 인텔리전스를 랩톱에 구현할 수 있음을 입증합니다. 이제 개발자들은 완전한 도구 호출 에이전트, 장문맥 RAG(검색 증강 생성), 다중모달 워크플로우를 오프라인 상태에서 전적으로 실행할 수 있습니다.

실행 가능한 통찰: -Hardware 요구 사항:Apple Silicon에 고속 NVMe SSD(최소 1TB 권장)와 32GB 이상의 통합 메모리 필요로 원활한 성능 보장 -Quantization 절충:신뢰성을 위해 4-bit 유지; 2-bit는 속도는 제공하지만 출력 아티팩트 완화를 위해 프롬프트 엔지니어링 필요 -미래 확장:모듈식 셰이더 설계는 커뮤니티가 다른 MoE 모델(DeepSeek-V3, Mixtral 파생 모델) 및 추가 Apple Silicon 세대로의 포팅을 유도

이러한 민주화는 클라우드 API 의존도를 줄이고, 추론 비용을 거의 0으로 낮추며, 프라이버시 민감 분야의 실험을 가속화합니다.

결론

Flash-MoE는 AI 접근성에서 중추적인 전환을 대표합니다: 최첨단 규모 MoE 모델이 더 이상 데이터센터 인프라를 필요로 하지 않습니다. MoE 희소성, SSD 스트리밍 및 Metal 특화 최적화를 결합해 일상적인 하드웨어에서 프로덕션 준비 성능을 제공합니다.

전체 소스 코드, 가중치 변환 스크립트 및 90개 이상의 실험 로그는 GitHub의 danveloper/flash-moe에서 확인할 수 있습니다. 저장소를 클론하고 Metal 추론 바이너리를 컴파일하여 오늘 로컬에서 실행되는 397B 파라미터 인텔리전스를 경험해 보세요. 랩톱 규모 최첨단 AI 시대가 도래했습니다 — 지금 바로 구축을 시작하세요.

Share this article