Ahora estoy ocupado, te puedo dar una respuesta más elaborada en unas horas pero tl;dr
https://github.com/KoboldAI/KoboldAI-Client
Los modelos los sacas de su UI o los puedes importar manualmente de Hugging Face. Lo puedes desplegar en el colab de Google para que te hagas una idea de como funciona y luego armarlo sobre un GPU de Nvidia local.
>Inb4 ¿Hay otra alternativa que no sea Nvidia?
Realmente no. El kit Cuda no está disponibles en otros GPUs y no hay la misma cantidad de gente desarrollando en AMD o Intel.
>Inb4 no tengo plata para una Nvidia
Trabaja y consigue dinero.Todos los servicios """jailbreak""" que hay en internet son así para obtener audiencia, una vez que tienen masa para obtener ingresos sustanciales comienzan a censurarla además de subirle a las membresías. No existe nube, solo la computadora de alguien más, si no eres dueño del hardware no tienes control sobre el software.
>>86085
>Cuánta potencia requiere un bicho de esos?
Depende del modelo. La regla general es que vas a necesitar el doble del número de parámetros en ram/vram; si es un modelo de 2B parámetros vas a necesitar 4GB de RAM/VRAM libre. Por supuesto existen motores y técnicas para optimizar eso, pero en general es así. Personalmente creo que un Nvidia de 8GB es un buen punto para comenzar y de 12 si quieres asegurarte de tener espacio para hacer otras cosas.
>No sé podrían ocupar como procesadores teléfonos sin usar?
No tengo idea de como correrá Kobold en un dispositivo ARM; pero considerando las limitaciones del mobil dudo que vaya bien. Existe la posibilidad de correr los modelos en puro CPU mientras tengas suficiente RAM, el problema es que como el CPU es infinitamente más lento que el GPU para inferencia, los resultados van a ser super lentos. Recuerdo que corrí un modelo de 350m de parámetros en una i3 de 4 nucleos y corría, pero respondía cada dos minutos o algo así.
En cualquier caso si quieres inferir desde un dispositivo ARM, Raspberry tiene el ecosistema más maduro con el Coral de Jewgle y los dispositivos de aceleración que ahora puedes insertar en el puerto pcie.