· Abraham · Forja · 4 min read
Un pequeño genio
Domando un Modelo pequeño rodeandolo de andamiaje

Llevo unas semanas sin escribir. No soy escritor ni me gusta especialmente, pero escribir me ayuda a seguir, a ordenar lo que tengo en la cabeza y a continuar. Estas semanas han sido de rasguños, arañazos, pisotones y moratones, que es lo que llevo acumulando desde que empecé con esto.
Estoy contento, porque he aprendido mucho por el camino. Pero lo que más me ha frustrado, lo que me ha hecho replantearme todo y hacer más ensayo y error del que me gustaría admitir, ha sido trabajar con modelos de lenguaje en local.
Aquí está la trampa: si chateas con un modelo local de tamaño mediano, todo pinta bien. Responde con coherencia, razona con fluidez, parece capaz de cualquier cosa. El problema llega cuando dejas de chatear y empiezas a construir. Cuando lo metes en un árbol de decisión, le pides que use herramientas externas, le exiges un formato de respuesta concreto, le das un rol dentro de un pipeline con más agentes. Ahí empieza a caerse en pedazos. Alucinaciones que parecen broma: “tienes 3 correos de mijefe@empresa.com”. Formatos incorrectos que rompen el paso siguiente. Un prompting cada vez más defensivo, más largo, más frágil, intentando atar en corto a un modelo que no termina de ser fiable cuando la tarea se complica.
Después de semanas de pruebas, tomé una decisión que va contra mis principios: cambié a Gemini Flash 2.5. Y todo empezó a funcionar. Las alucinaciones desaparecieron, el uso de herramientas se volvió predecible, los formatos se respetaron. La diferencia fue inmediata y difícil de ignorar.
Pero la soberanía del dato no es negociable para mí. Así que he vuelto al punto de partida con una decisión clara: voy a invertir en hardware y usar un modelo de 30B parámetros, algo que pueda ejecutar yo. Es el coste de la soberanía, y lo acepto sin dudarlo.
Otra vez.
He vuelto a empezar. Otra vez. No me importa, porque en cada vuelta aprendo cosas nuevas y tomo mejores decisiones. Por ejemplo, abandoné LangGraph y ahora uso PydanticAI. También descubrí, con cierta gracia, que el camino al que había llegado de forma intuitiva ya tiene nombre: se llama ReAct. Mi andamiaje no es original: es una respuesta a la necesidad de domar a mi pequeño genio, y resulta que otros llegaron al mismo sitio antes que yo.
Y es que realmente lo veo así. Si tienes un niño que es un genio y le pides que haga algo complejo, no va a saber por dónde empezar. Pero si lo guías paso a paso, le haces reflexionar antes de actuar, le obligas a verificar lo que ha hecho y a resumir lo que sabe, la cosa mejora mucho. Eso es exactamente lo que hace un buen pipeline con un modelo de lenguaje: no confiar ciegamente en su capacidad, sino construir el andamiaje que le permite usarla bien.
Sigo en pruebas y seguiré en pruebas. Pero esto es lo que estoy construyendo ahora mismo.
El andamiaje, no los pasos
Durante un tiempo pensé este andamiaje como una lista rígida de pasos: evalúa, anticipa, actúa, consolida, verifica, responde. Me servía para ordenarme la cabeza, pero la realidad ha resultado ser menos lineal y más interesante. Lo que ha sobrevivido de aquella lista no son los pasos, sino el principio que había debajo: no confíes en que el modelo sabe lo que hace; construye el andamiaje que le permite hacerlo bien.
Ese principio ha cristalizado en dos ideas que me han ocupado los últimos meses, y que he preferido contar por separado porque cada una da para lo suyo:
- Para el chat del día a día, dos modelos pequeños corriendo en paralelo: uno que pone la voz y la calidez desde el primer token, y otro que, en otra tarjeta, decide qué herramientas tocar y las ejecuta sin que se note la espera. Lo cuento en Anatomía de un turno de chat.
- Para cuando le pido que investigue de verdad, un quórum: un arquitecto descompone la pregunta, varios investigadores buscan en paralelo con su propio navegador, un escéptico verifica y un corroborador re-deriva cada cifra contra su fuente. Lo cuento en Cómo busca Alyss cuando le pido que investigue de verdad.
No son dos sistemas distintos: son el mismo andamiaje aplicado con más o menos profundidad según lo que le pidas. Y los dos nacen de la misma terquedad: domar al genio en lugar de fiarme de él. Esa es la filosofía que llevo meses intentando aprender a construir, y de la que estos dos artículos son las dos caras.
Por hoy lo dejo aquí. Me voy a jugar con mi pequeño genio. El de verdad. El de cuatro años. Ese no alucina, pero tampoco acepta prompts.



