LLM의 Mixture of Experts (MoE) 아키텍처

LLM MoE:
Mixture of Experts(MoE)는 현대 AI 모델이 직면한 ‘거대화’와 ‘효율성’이라는 두 마리 토끼를 잡을 수 있는 방법입니다.

DeepSeek-V3와 같은 최신 모델들은 미세 조정 전문가, 공유 전문가 isolation, 보조 손실 없는 부하 분산, 그리고 MLA와 같은 메모리 효율화 기술을 결합하여 조 단위 매개변수 모델의 대중화를 앞당기고 있습니다.

해당 글은 LLM MoE의 특징과 원리, 성능, 한계점에 대한 내용을 다룹니다.

Content

대규모 언어 모델의 패러다임 전환: Dense 모델에서 Sparse 모델로의 이동

대규모 언어 모델(LLM)의 발전사는 매개변수(Parameter) 수의 기하급수적인 증가와 그에 따른 연산 비용의 폭증으로 요약될 수 있습니다.

초기 트랜스포머 아키텍처 기반의 모델들은 모든 입력 토큰에 대해 모델 내의 모든 매개변수가 연산에 참여하는 밀집(Dense) 구조를 채택하였습니다.[1, 2]

그러나 모델의 크기가 수천억 개를 넘어 조 단위에 육박하면서, 훈련에 필요한 컴퓨팅 자원과 추론 시 발생하는 지연 시간(Latency)은 실질적인 서비스 배포의 거대한 장벽으로 작용하게 되었습니다.[2, 3]

이러한 배경에서 Mixture of Experts(MoE) 아키텍처는 모델의 전체 용량은 확장하면서도 특정 연산에 필요한 활성 매개변수(Active Parameters)의 수를 제한함으로써 ‘희소성(Sparsity)’을 통한 효율성을 달성하는 혁신적인 대안으로 부상하였습니다.[4, 5, 6]

MoE의 핵심 논리는 신경망의 특정 계층, 특히 트랜스포머 블록의 피드포워드 네트워크(FFN)를 여러 개의 독립적인 ‘전문가(Expert)’ 유닛으로 분할하는 데 있습니다.[1, 2]

모든 입력 토큰이 동일한 FFN을 통과하는 대신, 라우터(Router)라고 불리는 게이팅 메커니즘이 각 토큰의 특성을 분석하여 가장 적합한 소수의 전문가에게만 데이터를 전달합니다.[2, 7]

이를 통해 모델은 전체 매개변수가 보유한 방대한 지식을 유지하면서도 실제 계산에 투입되는 연산량(FLOPs)을 획기적으로 낮추는 ‘매개변수와 연산량의 결합 해제(Decoupling)’를 실현합니다.[6]

MoE 아키텍처의 구조적 구성 요소와 동작 원리

MoE 레이어는 전통적인 트랜스포머 아키텍처의 FFN 서브레이어를 대체하며, 크게 세 가지 기술적 기둥 위에 구축됩니다

전문가 네트워크 세트, 게이팅 네트워크(라우터), 그리고 전문가 간의 부하를 조절하는 밸런싱 메커니즘이다.[2, 8]

전문가 네트워크와 매개변수 분할

각 전문가는 대개 표준적인 피드포워드 신경망 구조를 가지며, 각각 독자적인 가중치 집합을 보유합니다.[1, 6]

모델 학습이 진행됨에 따라 각 전문가는 특정 데이터 도메인, 언어적 패턴, 또는 추론 유형에 최적화되는 ‘전문화(Specialization)’ 과정을 거칩니다.[1, 2, 9]

이러한 전문화는 명시적인 지시가 아닌, 경사 하강법(Gradient Descent)을 통한 최적화 과정에서 효율적인 손실 함수 감소를 위해 자연스럽게 발생하는 발현적 현상입니다.[1]

최근의 기술 문서에 따르면 전문가의 설계 방식은 ‘조립형(Coarse-grained)’에서 ‘미세 조정형(Fine-grained)’으로 진화하고 있습니다.[10, 11]

전통적인 MoE가 8개 내외의 큰 전문가를 사용했다면, 최신 아키텍처는 수백 개의 작은 전문가로 분할하여 표현의 다양성을 극대화합니다.[12, 13]

예를 들어, Mixtral 8x7B는 8개의 전문가를 운용하는 반면, DeepSeek-V3는 256개의 라우팅 전문가를 배치하여 더욱 정교한 지식 매핑을 시도합니다.[4, 12, 14]

게이팅 네트워크와 라우팅 알고리즘

게이팅 네트워크는 입력 토큰 벡터 x를 받아 각 전문가에 대한 확률 분포를 출력하는 경량 선형 계층입니다.[1, 2]

라우팅의 목적은 가장 효율적인 정보 처리 경로를 결정하는 것이며, 주요 방식은 다음과 같이 구분 됩니다.

1. Top-1 게이팅:
각 토큰을 가장 높은 점수를 받은 단 하나의 전문가에게만 보냅니다.
연산 속도가 가장 빠르며 하드웨어 효율성이 높으나, 라우팅 오류에 취약할 수 있습니다.[2, 15, 16]

2. Top-K 게이팅 (K ≥ 2):
Mixtral 8x7B와 같이 각 토큰을 2개 이상의 전문가에게 할당하고 그 출력을 가중합(Weighted Sum)합니다.[4, 5]
이는 정보 손실을 방지하고 전문가 간의 협업을 유도합니다.

3. 전문가 선택 라우팅 (Expert Choice Routing):
토큰이 전문가를 고르는 것이 아니라, 전문가가 고정된 용량 내에서 자신에게 가장 적합한 토큰을 선택합니다.
이는 완벽한 부하 분산을 보장하지만 구현 복잡도가 높습니다.[17, 18]

부하 분산과 전문가 붕괴의 억제

MoE 아키텍처의 치명적인 결함 중 하나는 ‘전문가 붕괴(Expert Collapse)’입니다.[3, 8]

특정 전문가가 초기에 더 많이 선택되면 더 빠르게 학습되고, 라우터는 성능이 좋은 해당 전문가에게 더 많은 토큰을 집중시키는 양의 피드백 루프에 빠지게 됩니다.[2, 3]

이를 방지하기 위해 전통적으로는 보조 손실 함수(Auxiliary Load Balancing Loss)를 사용하여 모든 전문가가 균등하게 토큰을 처리하도록 강제합니다.[2, 8, 15]

주요 부하 분산 전략	동작 원리	장점 및 한계
Auxiliary Loss	각 전문가의 토큰 처리 빈도 차이에 페널티 부과	전문가 활용도를 균일하게 유지하나 모델 성능과 상충 가능 [8, 15]
Capacity Factor	각 전문가가 수용 가능한 토큰의 최대 한계(Buffer) 설정	하드웨어 활용 최적화, 초과 토큰은 드롭(Drop)되어 정보 손실 발생 [6, 15]
Bias-based Routing	전문가 부하에 따라 라우팅 점수에 동적 바이어스 가감	보조 손실 없이 성능 저하 최소화하며 부하 조절 [12, 14, 19]
Dynamic Redistribution	초과 토큰을 한가한 전문가에게 재할당	토큰 드롭 방지, 시스템 복잡도 증가 [15]

DeepSeek-V3의 혁신적 MoE 설계

최근 공개된 DeepSeek-V3는 기존 MoE의 한계를 극복하기 위해 설계된 최첨단 기술들의 집약체입니다.[12, 14]

이 모델은 6,710억 개의 총 매개변수를 보유하면서도 토큰당 370억 개의 매개변수만을 활성화하여 최고 수준의 경제성과 성능을 동시에 달성하였습니다.[12, 14, 20]

미세 조정 전문가와 공유 전문가의 분리

DeepSeek-V3의 가장 큰 특징은 전문가를 ‘공유 전문가(Shared Experts)’와 ‘라우팅 전문가(Routed Experts)’로 이원화한 것입니다.[14, 20, 21]

모든 토큰에 대해 항상 활성화되는 공유 전문가는 도메인 전반에 걸친 공통 지식을 캡처하며, 라우팅 전문가들이 각자의 특화된 영역에 집중할 수 있도록 ‘지식의 중복’을 제거하는 역할을 수행합니다.[14, 21]

또한, 전문가의 크기를 줄이고 개수를 늘리는 미세 조정 전략을 통해 전문가 조합의 경우의 수를 기하급수적으로 늘렸습니다.[12, 13]

이는 모델이 입력 토큰의 미세한 문맥 차이에 따라 훨씬 더 유연하게 매개변수를 조합할 수 있게 합니다.[10, 13]

DeepSeek-V3는 레이어당 256개의 라우팅 전문가 중 8개를 선택하며, 여기에 1개의 공유 전문가가 항시 결합되어 연산에 참여합니다.[12, 19, 20]

보조 손실 없는 부하 분산 (Auxiliary-Loss-Free Strategy)

기존의 보조 손실은 전문가들 사이의 부하를 맞추기 위해 라우터의 최적 결정을 방해하여 모델의 최종 정확도를 떨어뜨리는 부작용이 있습니다.[8, 19]

DeepSeek-V3는 이를 해결하기 위해 보조 손실을 완전히 제거하고, 대신 전문가별 바이어스 항을 실시간으로 업데이트하여 부하를 조절하는 혁신적인 방식을 도입하였습니다.[12, 14, 22]

이 메커니즘에서 바이어스는 전문가 i가 과부하 상태이면 감소하고, 저부하 상태이면 증가하도록 설계되어 학습 과정에서 자연스럽게 균형을 찾아갑니다.[12, 14, 19]

이러한 접근은 부하 분산이라는 ‘시스템적 목표’와 지식 학습이라는 ‘모델적 목표’ 사이의 충돌을 해소하며, 특히 수학이나 프로그래밍과 같은 고난도 추론 과제에서 뛰어난 성과를 냅니다.[12, 14]

Multi-head Latent Attention (MLA)와의 시너지

MoE가 피드포워드 계층의 효율성을 개선한다면, DeepSeek-V3에 도입된 MLA는 어텐션 계층의 병목인 Key-Value(KV) 캐시 문제를 해결합니다.[12, 22, 23]

MLA는 저차원 잠재 벡터(Latent Vector)를 사용하여 KV 데이터를 압축 저장하며, 이는 추론 시 메모리 대역폭 요구량을 획기적으로 줄여줍니다.[12, 22, 23]

이러한 압축 기술은 MoE의 특성과 결합되어 시너지를 냅니다.

MoE 모델은 많은 매개변수로 인해 VRAM 사용량이 높지만, MLA를 통해 KV 캐시 점유율을 낮춤으로써 더 큰 배치 사이즈를 처리하거나 더 긴 문맥(Context Window)을 유지할 수 있는 여유 공간을 확보할 수 있습니다.[12, 20]

MoE 모델의 훈련 인프라 및 통신 최적화

MoE 아키텍처는 분산 컴퓨팅 환경에서 구현할 때 고도의 엔지니어링 역량을 요구합니다.[2, 24]

특히 전문가 병렬성(Expert Parallelism)은 데이터 병렬성이나 텐서 병렬성과는 다른 독특한 통신 패턴을 발생시킵니다.[4, 25]

전문가 병렬성과 All-to-All 통신

MoE 모델에서 각 전문가는 서로 다른 GPU 장치에 분산 배치됩니다.[2, 4, 25]

입력 토큰이 어떤 전문가에게 할당되느냐에 따라 토큰 데이터를 해당 전문가가 있는 GPU로 보내고 다시 결과를 받아오는 ‘All-to-All’ 통신 과정이 필수적입니다.[3, 24, 25]

이 과정에서 발생하는 통신 지연(Latency)은 모델의 학습 및 추론 속도를 저하시키는 주요 원인이 됩니다.[24, 25]

NVIDIA와 DeepSeek 연구팀은 이를 해결하기 위해 다음과 같은 최적화 기법을 제시합니다.

• Hybrid Expert Parallel (HybridEP):
노드 내부의 고속 NVLink와 노드 간의 InfiniBand 통신을 계층화하여 최적의 경로로 토큰을 라우팅.[26]

• DualPipe 알고리즘:
연산(Forward/Backward pass)과 통신(Dispatch/Combine) 과정을 정교하게 겹쳐(Overlap) GPU가 통신 완료를 기다리며 노는 시간을 최소화.[12, 22, 25]

• Node-limited Routing:
토큰이 선택할 수 있는 전문가의 범위를 물리적으로 가까운 노드 내로 제한하여 노드 간 통신 비용을 절감.[13, 26]

FP8 혼합 정밀도와 수치 안정성

DeepSeek-V3는 세계 최초로 FP8(8비트 부동소수점) 정밀도를 사용하여 대규모 MoE 모델의 사전 훈련을 성공적으로 마쳤습니다.[12, 19, 22]

FP8 사용은 메모리 대역폭을 절반으로 줄이고 연산 속도를 가속화하지만, 낮은 정밀도로 인해 아웃라이어(Outlier) 값이 발생할 경우 수치적 불안정성을 초래할 수 있습니다.[12, 19]

이를 극복하기 위해 DeepSeek-V3는 ‘Tile-wise’ 및 ‘Block-wise’ 양자화 전략을 도입하였습니다.[19]

행렬 전체에 하나의 스케일링 팩터를 적용하는 대신, 1×128 타일 단위로 미세하게 양자화함으로써 정밀도 손실을 최소화하고 학습의 안정성을 확보하였습니다.[19]

또한, 가수부(Mantissa) 비트 수를 조정한 E4M3 포맷을 사용하여 수치 해상도를 높였습니다.[19]

MoE 성능 모델링: Scaling Laws와 경제적 효용성

MoE 모델의 성능과 비용 사이의 관계는 기존 밀집 모델의 확장 법칙(Scaling Laws)과는 다른 양상을 보입니다.[11, 27, 28]

Granularity 하이퍼파라미터의 역할

최근 연구인 ‘Scaling Laws for Fine-Grained Mixture of Experts’에 따르면, MoE의 성능은 ‘입상도(G)’라는 새로운 변수에 의해 크게 좌우됩니다.[10, 11, 28]

입상도는 전문가를 얼마나 세밀하게 쪼개느냐를 결정하는 지표로, 동일한 활성 매개변수 하에서도 입상도가 높을수록 모델의 손실 값이 더 효과적으로 감소하는 경향을 보입니다.[11, 28]

하이퍼파라미터	정의 및 영향	최적화 방향
Active Parameters (N act)	각 토큰 연산에 사용되는 매개변수 수	연산량(FLOPs)과 정비례, 추론 지연 시간 결정 [4, 28]
Total Parameters (N total)	모델이 보유한 전체 매개변수 수	지식 저장 용량과 비례, VRAM 요구량 결정 [5, 6, 29]
Granularity (G)	전문가의 세분화 정도 및 선택 개수	표현의 정밀도 향상, 너무 높으면 라우팅 오버헤드 증가 [10, 11, 28]
Capacity Factor (CF)	전문가당 할당되는 토큰 버퍼 배수	1.0~1.25 사이에서 훈련 효율과 정보 손실 간의 균형 [6, 15, 16]

연구 결과에 따르면, 최적으로 훈련된 MoE 모델은 동일한 컴퓨팅 자원(1020 FLOPs 수준)에서 밀집 모델보다 20배 이상의 효율을 보일 수 있으며, 모델 규모가 커질수록 이 격차는 더욱 확대됩니다.[11, 28]

FLOPs란?

Floating Point Operations(부동소수점 연산)의 약자

대규모 언어 모델(LLM)과 인공지능 분야에서 FLOPs는 주로 모델을 학습시키거나 실행하는 데 필요한 ‘계산량(computation)’ 또는 ‘연산 비용/오버헤드’를 나타내는 지표로 사용됩니다.

• 연산량과 매개변수의 분리:
기존 모델에서는 모델의 용량(매개변수, parameters)을 키우면 그에 비례하여 연산량(FLOPs)도 선형적으로 폭증했습니다.

하지만 MoE 모델은 입력된 데이터에 대해 전체 매개변수 중 일부(소수의 전문가)만 활성화하기 때문에, FLOPs(연산량)를 일정하게 유지하거나 크게 늘리지 않으면서도 모델의 전체 매개변수 용량을 획기적으로 확장할 수 있습니다.

• 연산 효율성 측정 (MFU):
FLOPs는 시스템의 성능을 평가할 때도 사용됩니다. 예를 들어, ‘토큰당 필요한 연산량(FLOPs per token)’과 ‘하드웨어의 최대 연산 처리 능력(peak FLOPs capacity)’을 비교하여,
모델이 하드웨어의 연산 능력을 얼마나 효율적으로 사용하고 있는지를 나타내는 모델 플롭스 활용도(Model FLOPS Utilization, MFU)를 계산하는 기준으로 쓰입니다

이는 미래의 초거대 모델들이 필연적으로 MoE 또는 그 이상의 희소 아키텍처를 채택할 수밖에 없음을 시사합니다.[28]

MoE-CAP 트레이드오프와 하드웨어 제약

MoE 시스템의 배포는 비용(Cost), 정확도(Accuracy), 성능(Performance) 사이의 복잡한 균형점인 ‘MoE-CAP’ 트레이드오프를 수반합니다.[30, 31]

1. 단일 사용자 환경 (작은 배치):

개인용 워크스테이션이나 모바일 기기에서는 연산량보다는 모델 가중치를 메모리에 적재하는 용량이 병목이 됩니다.[30, 32]

이때 MoE는 CPU와 GPU 하이브리드 추론이나 전문가 오프로딩(Offloading) 기술을 통해 저사양 하드웨어에서도 거대 모델을 구동할 수 있는 가능성을 열어줍니다.[30, 32]

2. 멀티 사용자 환경 (큰 배치):

데이터 센터 서비스 환경에서는 배치 사이즈가 커짐에 따라 서로 다른 토큰들이 각기 다른 전문가를 요청하게 됩니다.[20]

결국 모든 전문가가 동시에 호출되는 상황이 빈번해지며, 이때는 컴퓨팅 연산 능력보다 GPU 간의 통신 대역폭과 메모리 대역폭이 전체 시스템의 처리량(Throughput)을 결정하는 결정적 요인이 됩니다.[20, 24]

대표적인 MoE 모델 및 최신 활용 사례

MoE 기술은 이미 텍스트 생성을 넘어 멀티모달 인식, 전문 도메인 추론 등 다양한 영역으로 확산되고 있습니다.[22, 29, 33]

Mixtral 8x7B: 고성능 MoE

Mistral AI가 발표한 Mixtral 8x7B는 MoE 아키텍처가 상용 모델(GPT-3.5)이나 훨씬 거대한 밀집 모델(Llama 2 70B)과 대등하거나 그 이상의 성능을 낼 수 있음을 입증한 기념비적인 모델입니다.[4, 5]

Mixtral은 47B 총 매개변수 중 13B만을 활성화하며, 특히 수학, 코드 생성, 다국어 벤치마크에서 Llama 2 70B를 압도하는 효율성을 보여주었습니다.[4, 7]

Ovis 2.6: 멀티모달 MoE

Ovis 2.6은 시각 능력을 갖춘 LLM에 MoE를 적용하여 고해상도 이미지 분석 성능을 극대화하였습니다. [29]

30B 매개변수 중 3B만 활성화하여 2880×2880 해상도의 이미지를 처리하며, ‘Think with Image’라는 기능을 통해 모델이 시각적 도구(크롭, 회전 등)를 능동적으로 호출하여 다단계 추론을 수행합니다.[29]

이는 MoE가 단순한 텍스트 처리를 넘어 복잡한 인지 작업에서도 유효함을 보여주는 사례입니다.[29]

LLMoE: 금융 분야의 전문 라우팅

금융 분야에서는 LLMoE(Large Language Model-based Routing in MoE) 프레임워크가 제안되었습니다.[33]

기존의 단순 선형 라우터 대신 LLM 자체를 라우터로 사용하여, 뉴스 텍스트와 주가 데이터를 결합 분석함으로써 최적의 전문가를 선택합니다.[33]

이는 도메인 지식이 풍부한 상위 모델이 하위 전문가들의 협업을 지휘하는 고차원적인 MoE 운영 방식을 제시합니다.[33]

MoE의 미래: 기술적 도전과 향후 과제

MoE 아키텍처가 주류로 자리 잡았음에도 불구하고, 여전히 해결해야 할 과제들이 산적해 있습니다.[2, 24]

첫째, 라우팅 전략의 고도화

현재의 Top-K 방식은 토큰 간의 상관관계나 문맥적 중요도를 충분히 반영하지 못할 때가 많습니다.[18, 34]

이를 극복하기 위해 ‘Expert-Token Resonance(ETR)’와 같이 훈련 단계에 따라 토큰 선택과 전문가 선택 비중을 동적으로 조절하는 방식이나, 완전 미분 가능한 ‘Soft MoE’ 등의 연구가 활발히 진행되고 있습니다.[18, 34]

둘째, 통신 병목의 물리적 한계

모델 규모가 수 조 단위로 확장될수록 GPU 간의 통신 비용은 연산 비용을 앞지르게 됩니다.[24, 25]

이는 단순히 알고리즘의 개선뿐만 아니라 광통신 기반의 차세대 인터커넥트 하드웨어와의 공동 설계(Co-design)가 요구됩니다.[24]

셋째, 전문가 오염 및 지식 편향

특정 도메인의 데이터가 편중될 경우 특정 전문가만 과하게 학습되거나 지식이 파편화되어 전이 학습(Transfer Learning) 성능이 떨어지는 문제가 발생할 수 있습니다.[3, 8]

공유 전문가의 크기를 최적화하거나 전문가 간의 지식 증류(Distillation)를 통해 모델의 견고함을 높이는 기술적 보완이 필요합니다.[14, 35]

참고자료

1. Can someone explain what a Mixture-of-Experts model really is? : r/LocalLLaMA – Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1oqttg0/can_someone_explain_what_a_mixtureofexperts_model/

2. Mixture of Experts LLMs: Key Concepts Explained – Neptune.ai, https://neptune.ai/blog/mixture-of-experts-llms

3. Mixture-of-Experts (MoE) Models in AI – Artificial Intelligence in Plain English, https://ai.plainenglish.io/mixture-of-experts-moe-models-in-ai-4bcbcdecccf8

4. Mixtral of Experts, https://arxiv.org/pdf/2401.04088

5. A Review of Mixtral 8x7B To Avoid Critical Mistakes – Galileo AI, https://galileo.ai/blog/mixtral-8x7b-guide-review

6. Insights about Switch Transformers Paper | by Bhushan Shah | Jan, 2026 – Medium, https://medium.com/@bhushan.shah05/insights-about-switch-transformers-paper-ae681b7b65cf

7. Papers Explained 95: Mixtral 8x7B | by Ritvik Rastogi – Medium, https://ritvik19.medium.com/papers-explained-95-mixtral-8x7b-9e9f40ebb745

8. Adaptive-expert-weight-based load balance scheme for dynamic routing of MoE – PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC12558867/

9. Redefining AI with Mixture-of-Experts (MOE) Model: Mixtral 8×7… | E2E Networks, https://www.e2enetworks.com/blog/redefining-ai-with-mixture-of-experts-moe-model-mixtral-8x7b-and-switch-transformers

10. Fine-grained MoE-LLMs Overview – Emergent Mind, https://www.emergentmind.com/topics/fine-grained-mixture-of-experts-large-language-models-fine-grained-moe-llms

11. Scaling Laws for Fine-Grained Mixture of Experts – IPPT PAN, https://www.ippt.pan.pl/repository/open/o9209.pdf

12. DeepSeek-V3: Open Sparse MoE Model – Emergent Mind, https://www.emergentmind.com/topics/deepseek-v3

13. Beyond Vanilla MoE: Fine-Grained Experts, Shared Experts, and Modern Architectural Innovations | by Chris Hughes | Medium, https://medium.com/@chris.p.hughes10/beyond-vanilla-moe-fine-grained-experts-shared-experts-and-modern-architectural-innovations-f89dd62e433b

14. DeepSeek-V3 Technical Report, https://arxiv.org/pdf/2412.19437

15. A Review on the Evolvement of Load Balancing Strategy in MoE …, https://normaluhr.github.io/2025/01/15/moe-load-balancing/

16. A Review on the Evolvement of Load Balancing Strategy in MoE LLMs: Pitfalls and Lessons, https://huggingface.co/blog/NormalUhr/moe-balance

17. Applying Mixture of Experts in LLM Architectures | NVIDIA Technical Blog, https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/

18. At the Frontier of AI: Reviewing Top Papers on Mixture of Experts in Machine Learning — Part 5 – Isaac Kargar, https://kargarisaac.medium.com/at-the-frontier-of-ai-reviewing-top-papers-on-mixture-of-experts-in-machine-learning-part-5-ee939dc91409

19. DeepSeek v3 and R1 Model Architecture: Why it’s powerful and economical – Fireworks AI, https://fireworks.ai/blog/deepseek-model-architecture

20. DEEPSEEK INFERENCE THEORETICAL MODEL – Aleph Alpha, https://aleph-alpha.com/wp-content/uploads/DeepSeek-Inference-Theoretical-Model_Deriving-the-performance-from-hardware-primitives_02092025.pdf

21. DeepSeekMoE Architecture Overview – Emergent Mind, https://www.emergentmind.com/topics/deepseekmoe-architecture

22. DeepSeek-V3 Explained: Optimizing Efficiency and Scale | ADaSci Blog, https://adasci.org/blog/deepseek-v3-explained-optimizing-efficiency-and-scale

23. DeepSeek-V3 Technical Report – arXiv.org, https://arxiv.org/html/2412.19437v1

24. From Dense to Mixture of Experts: The New Economics of AI Inference – Signal65, https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

25. Optimizing Communication for Mixture-of-Experts Training with Hybrid Expert Parallel | NVIDIA Technical Blog, https://developer.nvidia.com/blog/optimizing-communication-for-mixture-of-experts-training-with-hybrid-expert-parallel/

26. Mixture of Experts package — Megatron-LM – NVIDIA Documentation, https://docs.nvidia.com/megatron-core/developer-guide/latest/api-guide/moe.html

27. Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient – arXiv.org, https://arxiv.org/html/2502.05172v1

28. Scaling Laws for Fine-Grained Mixture of Experts – arXiv, https://arxiv.org/html/2402.07871v1

29. AIDC-AI/Ovis2.6-30B-A3B – Hugging Face, https://huggingface.co/AIDC-AI/Ovis2.6-30B-A3B

30. MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems – arXiv.org, https://arxiv.org/html/2412.07067v6

31. MoE-CAP: Benchmarking Cost, Accuracy and Performance of Sparse Mixture-of-Experts Systems | OpenReview, https://openreview.net/forum?id=k2fWVhG0u5&referrer=%5Bthe%20profile%20of%20Jilong%20Xue%5D(%2Fprofile%3Fid%3D~Jilong_Xue2)

32. The MoE tradeoff seems bad for local hosting : r/LocalLLaMA – Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1nsszob/the_moe_tradeoff_seems_bad_for_local_hosting/

33. LLM-Based Routing in Mixture of Experts: A Novel Framework for Trading – Hugging Face, https://huggingface.co/papers/2501.09636

34. Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection – arXiv, https://arxiv.org/html/2406.00023v4

35. Union-of-Experts: Experts in Mixture-of-Experts are Secretly Routers | OpenReview, https://openreview.net/forum?id=Ksgiup7ZNZ