Voltar para o Changelog
Melhoria
25 de abril, 2026v1.6.1

IA generativa com runtime configurável e respostas mais rápidas

Respostas generativas ficam mais curtas, aparecem mais cedo no chat e podem ser movidas para modelos quantizados sem mudar a experiência do usuário.

Destaques

  • Provider generativo configurável por ambiente, com Ollama como fallback
  • Streaming real para llama.cpp/TurboQuant via SSE do chat atual
  • Respostas generativas mais curtas e focadas na ação do usuário
  • Rollback operacional preservado para o runtime anterior

O que mudou

A camada generativa da IA Ascend passou a aceitar runtime configurável. Isso permite validar um servidor llama.cpp/TurboQuant em paralelo ao Ollama atual e trocar o provider sem alterar o contrato público do chat.

Impacto para o usuário

  • Respostas generativas tendem a ser mais curtas e diretas.
  • O streaming real reduz a espera percebida quando o runtime suporta tokens progressivos.
  • Consultas que dependem de ferramentas continuam priorizando dados do backend antes de texto livre.

Operação

O provider padrão continua seguro para rollback. A promoção de um novo runtime depende de validação de latência, estabilidade e qualidade em prompts reais do Ascend.