IA generativa com runtime configurável e respostas mais rápidas

Respostas generativas ficam mais curtas, aparecem mais cedo no chat e podem ser movidas para modelos quantizados sem mudar a experiência do usuário.

Destaques

Provider generativo configurável por ambiente, com Ollama como fallback
Streaming real para llama.cpp/TurboQuant via SSE do chat atual
Respostas generativas mais curtas e focadas na ação do usuário
Rollback operacional preservado para o runtime anterior

O que mudou

A camada generativa da IA Ascend passou a aceitar runtime configurável. Isso permite validar um servidor llama.cpp/TurboQuant em paralelo ao Ollama atual e trocar o provider sem alterar o contrato público do chat.

Impacto para o usuário

Respostas generativas tendem a ser mais curtas e diretas.
O streaming real reduz a espera percebida quando o runtime suporta tokens progressivos.
Consultas que dependem de ferramentas continuam priorizando dados do backend antes de texto livre.

Operação

O provider padrão continua seguro para rollback. A promoção de um novo runtime depende de validação de latência, estabilidade e qualidade em prompts reais do Ascend.