Voltar para o Changelog
Melhoria
25 de abril, 2026v1.6.1IA generativa com runtime configurável e respostas mais rápidas
Respostas generativas ficam mais curtas, aparecem mais cedo no chat e podem ser movidas para modelos quantizados sem mudar a experiência do usuário.
Destaques
- Provider generativo configurável por ambiente, com Ollama como fallback
- Streaming real para llama.cpp/TurboQuant via SSE do chat atual
- Respostas generativas mais curtas e focadas na ação do usuário
- Rollback operacional preservado para o runtime anterior
O que mudou
A camada generativa da IA Ascend passou a aceitar runtime configurável. Isso permite validar um servidor llama.cpp/TurboQuant em paralelo ao Ollama atual e trocar o provider sem alterar o contrato público do chat.
Impacto para o usuário
- Respostas generativas tendem a ser mais curtas e diretas.
- O streaming real reduz a espera percebida quando o runtime suporta tokens progressivos.
- Consultas que dependem de ferramentas continuam priorizando dados do backend antes de texto livre.
Operação
O provider padrão continua seguro para rollback. A promoção de um novo runtime depende de validação de latência, estabilidade e qualidade em prompts reais do Ascend.