TIDE: Destilação Cross-Arquitetura para Modelos de Linguagem por Difusão
Apresenta o primeiro framework para transferência de conhecimento entre arquiteturas diferentes em modelos de linguagem por difusão (dLLMs), resolvendo um problema crítico de compatibilidade. A técnica permite reduzir significativamente o tamanho dos modelos mantendo performance competitiva, com grande impacto na eficiência de inferência.
Ler artigo completo