TIDE: Destilação Cross-Arquitetura para Modelos de Linguagem Difusivos
Apresenta o primeiro framework para transferência de conhecimento entre arquiteturas diferentes em modelos de linguagem difusivos (dLLMs), reduzindo significativamente os parâmetros necessários mantendo desempenho competitivo. A destilação cross-arquitetura permite aproveitar modelos menores com decodificação paralela e contexto bidirecional, impactando diretamente na eficiência de inferência.
Ler artigo completo