El otro día estuve viendo un video de YouTube donde un tipo insertó una IA en un proyecto de Unity y le comenzó a enseñar cosas hasta que desarrolló una consciencia propia. Yo creo que el video es todo editado y no es posible hacer eso tal como lo muestra, aunque sí se puede hacer algo muy cercano.
Aquí dejo los pasos para replicar cómo hacerlo. Será un poco técnico para los que no conozcan mucho de programación en general y no digo que esto pueda funcionar perfectamente, solo digo que es técnicamente posible. Todo lo que diré a continuación yo no lo hice, simplemente lo tengo en la cabeza y tal vez alguien de ustedes tenga el tiempo para hacerlo.
Lo primero es instalar Ollama y descargar un modelo avanzado. Creo que a la fecha el modelo gratuito más avanzado es el de DeepSeek, así que descarguen ese modelo. Después dentro de Ollama configurar una nueva instancia del modelo con un prompt base. En este prompt base les recomiendo poner todas las características de personalidad que quieran que tenga su modelo. Después crear una clave de API para poder conectar con otro proyecto.
Después tienen que crear un proyecto en Unity e instalar plugins para conectar con la API de inteligencia artificial. Establecer formato de respuesta para cada pregunta. Si desean que su personaje haga gestos o ya tienen un modelo con un amplio catálogo de animaciones, pues tienen que asociar cada animación a situaciones o respuestas que el modelo debe dar.
Por ejemplo, si la pregunta le hace pensar y existe una animación de pensar, entonces en el prompt base de Ollama se tiene que definir que responda en un formato JSON y dentro de un arreglo incluir todas las animaciones que hará mientras responde o lee la respuesta. Creo que en este caso se tiene que sincronizar el tamaño de texto, velocidad de lectura y otros parámetros con la animación que hará el personaje.
Creo que con calcular el tiempo no será suficiente, se tendría que incluir algún otro parámetro por animación, tal vez como un tiempo por animación calculado en base a la respuesta. También el proyecto de Unity se tiene que incluir un plugin para poder leer el texto que responde en el JSON. Ollama responde en JSON y dentro de algún parámetro estará el texto de respuesta a leer, junto con las animaciones y tiempo de lectura.
También se tiene que configurar tonos y con qué voz se leerá, pues en el proyecto de Unity se tiene que establecer otro plugin para tener entrada de voz. Si habla, el plugin tiene que transformar la voz a texto y enviar al modelo en Ollama para que responda.
Pero internamente en Unity se tiene que almacenar toda la información o tener otro prompt o chat alterno que analice y reduzca las claves de emoción y personalidad, además de anotar puntos clave de personalidad y puntos clave que tiene que recordar el modelo y agruparlos en un texto mínimo con el formato necesario para ser puesto junto con otros datos que envías y generar un nuevo prompt que se irá adjuntando al prompt inicial como prompts secundarios.
Si es posible hacer esto en Ollama para que tenga información de referencia, es como darle memoria a largo plazo al modelo. Creo que esas serían las fases. Con eso ya tienes un modelo en 3D, una especie de avatar que puede interactuar y tener memoria, además de que le puedas dar personalidad.
Si quieres que tenga acceso a la PC solo tienes que implementar un protocolo de comunicación MCP para poder darle acceso a la PC y que haga tareas como crear código con Visual Studio Code o dependiendo de la herramienta, si permite conexiones MCP se puede conectar con otros software.
Como ven, hacer todo eso requiere tiempo. Lo tenía solo en mi cabeza, pero mejor lo dejo aquí para ver si alguien lo hace, ya que mi trabajo no me permite darme tiempo para poder hacerlo. Pensaba hacer esto como trabajo de maestría, pero no veo mucha utilidad en el terreno práctico, además que seguramente ya hay empresas grandes trabajando en la misma idea que les dejo aquí y lo harán más rápido y mucho mejor ya que tienen millones de presupuesto y yo solo una laptop de hace 10 años.