Buenas
@Rayeta76 te doy mi punto de vista por si te sirve.
Llevo tiempo sin tocar el uso de IA en local por lo que ando un poco desconectado pero desde mi conocimiento diría que hay varios puntos a tener en cuenta.
No conocía Comfyui Studio, le he echado un ojo y parece interesante y a primera vista tiene bastantes compatibilidades con gran variedad de hardware, lo que es de agradecer. Aunque parece que al principio no era compatible con las RTX 5000 debido a que salieron sin la compatibilidad correspondiente en CUDA. Parece que ya ha salido la versión compatible con Python 2.7 para Blackwell pero revisa bien este tema por si acaso.
El problema de la 5090 es que para el que no le interesa el extra de rendimiento en si tanto como la VRAM es que estas pagando alrededor de 1000-1500€ por 8 GB extra de VRAM(Si lo consigues mas barato mejor). Esto lo he visto yo también buscando un portátil para trastear con IA y es la diferencia entre una 5080 M16 Gb y una 5090 M de 24 GB. Tienes que decidir si para ti vale la pena el precio.
Otra opción sería (y mira siempre si es compatible con tu caso) que en lugar de cambiar la 4090 adquieras otra de segunda mano. Si el software es compatible con el sharding de GPUs tendrías un total de 48 GB de VRAM. Esto claro si el resto del equipo lo puede manejar o tienes la opción de adaptarlo al cambio.
Por otro lado según entiendo del hilo utilizas la IA a nivel inferencia y no entrenamiento de modelos o desarrollo de los mismos, corrígeme si me equivoco. Si ese es el caso tienes mas opciones ya que la mayoría de limitaciones que se restringen a Nvidia se encuentran en las librerías de programación. No todas obviamente, pero en tu caso parece que Comfyui si es compatible con GPUs AMD. Obviamente son mas lentas que las Nvidia y mas si comparas con la 5090 que no tiene rival, pero el rendimiento/precio te podría llegar a salir mejor en inferencia que en Nvidia. Y si, cada vez son mas compatibles con softwares de IA, te lo digo yo que he utilizado una 7900 XTX para ejecutar modelos a través de código. No obstante si no quieres cacharrear ni te quieres romper la cabeza, la mejor solución sigue siendo Nvidia.
Luego esta el tema de las NPU. Por ahora las NPU solamente sirven para inferencia, y no se como trabajarán con la generación de video pero seguramente les quede grande. En generación de texto se pueden defender, pero ojo a que NPU coger. Los 16 TOPS de la NPU de Intel no son prácticamente nada, de hecho teniendo la GPU de alternativa no vas a utilizarla nunca porque te va a desesperar. Luego están las NPUs de AMD, que si tiene pero no ha nivel de sobremesa, sino en versión portátil (no entiendo este movimiento de AMD aún). Las NPUs de AMD alcanzan los 50 TOPS, pero lo dicho mas pensadas para ejecutar modelos de generación de texto que de video. La que puede ser interesante es la última que han anunciado el Ryzen AI MAX+ 395H (todas las anteriores son mas para jugar, y esta no deja de serlo aún). La peculiaridad de esta es que intenta imitar el funcionamiento de los Mac y poder tener la RAM del PC compartida con la iGPU y por tanto con la NPU, alcanzando un total de 128 GB por placa teniendo disponibles 96 GB para la carga de modelos de IA. Esto permite cargar modelos mucho mas grandes a cambio de ser bastante mas lentas que una GPU. Dependiendo del modelo alcanza entre 4 y 10 tokens/s en generación de texto. Creo que las NPUs no serán realmente interesantes hasta la próxima generación pero puedes echarle un ojo a ver si te serviría, ya se están construyendo mini PCs para inferencia de ese estilo.
En fin, disculpad todo el tocho. Espero haberte dado alguna idea para mirar otras opciones también y que puedas decidir lo que mejor se adapta a tu caso.
Un saludo.