A corrida pela supremacia no campo da Inteligência Artificial acaba de ganhar um novo e poderoso concorrente. A Alibaba apresentou o Qwen3-Next, uma nova geração de modelos de linguagem de grande escala (LLMs) que promete ser dez vezes mais potente e dez vezes mais económica de desenvolver que a sua antecessora.
Segundo as informações divulgadas no blog oficial da Qwen AI, a gigante tecnológica chinesa disponibilizou duas variantes, a Qwen3-Next-Instruct e a Qwen3-Next-Thinking, ambas sob a licença open-source Apache 2.0. Os modelos já se encontram disponíveis em plataformas como Hugging Face, ModelScope e Kaggle, reforçando a aposta da empresa num ecossistema aberto.
Uma arquitetura híbrida para máxima eficiência
O segredo para esta proeza reside numa arquitetura híbrida que combina duas abordagens distintas. O modelo utiliza a tecnologia Gated DeltaNet para um processamento rápido e a Gated Attention para garantir uma maior precisão no raciocínio.
Apesar de contar com 80 mil milhões de parâmetros, o Qwen3-Next ativa apenas 3 mil milhões por cada token, uma estratégia que otimiza drasticamente a eficiência do modelo. Adicionalmente, o design Mixture-of-Experts foi expandido para 512 especialistas, um salto significativo face aos 128 da versão anterior, o que permite um melhor equilíbrio entre desempenho e custo computacional.
Mais contexto, mais poder e a um custo menor
Mas as novidades não se ficam por aqui. Os novos modelos da Alibaba suportam uma janela de contexto nativa de 256.000 tokens, que pode ser expandida até um milhão de tokens através de escalonamento RoPE. Esta capacidade permite analisar e processar documentos e conversas de grande dimensão com maior facilidade.
Para tornar a sua tecnologia mais acessível, a empresa anunciou também uma redução de preço de pelo menos 25% em comparação com o modelo Qwen3-235B na sua plataforma de cloud. Outras melhorias incluem previsão nativa de múltiplos tokens para acelerar a inferência e uma normalização atualizada para um treino mais estável.
Disponibilidade e otimização para hardware de ponta
O Qwen3-Next já está integrado com ferramentas populares como Hugging Face Transformers, SGLang, vLLM e Qwen-Agent. Um dos aspetos mais impressionantes é a sua capacidade de operar com 80 mil milhões de parâmetros numa única GPU Nvidia H200, um feito que demonstra a sua elevada otimização e que o torna uma opção viável para um leque mais vasto de investigadores e empresas.
from TugaTech https://ift.tt/G9lRTD8
https://ift.tt/Jt2q4Es
Share your thoughts here.