Que é o LLM “Carballo”?

Contabamos a semana pasada á presentación do proxecto NÓS, o proxecto galego de creación dunha Intelixencia Artificial galega no que QPC ten participado como fonte de aportación de datos.

Unha das cousas da interesante xornada que nos chamou a atención, foi o nome dunha das ferramentas: o novo LLM Carballo/Carvalho.

Para entender un pouco todas estas siglas, falamos con Paulo Gamallo, un dos membros do equipo do Proxecto Nós, que nos explica como funcionan estas ferramentas de código aberto na nosa lingua realizadas nesta iniciativa público-privada para que poidan usar libremente persoas e empresas.

Os LLMs, en inglés “Large Language Models”, son modelos lingüísticos nos que se basean as ferramentas que hoxe en día entendemos como unha IA. “Digamos que o chatgpt, ou deepseek, ou calquera delas, son algo máis que un LLM, porque están adaptados para ter un sistema de chat, pero o que ten por detrás, é un gran modelo, un gran LLM, con moitísimos datos recollidos”, explica.

Así a intención do proxecto Nós éra crear ese LLM, para “poder permitir que os chatbos poidan falar galego e que tamén entendan e coñezan a nosa cultura. Hoxe en día coñecen ben a cultura galega pero non coñecen tanto como coñecen a realidade de EEUU; por exemplo. Se lle preguntas a aliñación do Corcubión seguramente non a recoñeza o chatgtp, pero si a dun equipo de beisbol de Oklahoma, porque bebe máis datos de EEUU que de aquí”. É aía cando a recompilación de datos con medios como QPC faise fundamental para educar ás ferramentas.

Con todo, explica Gamallo, “un dos problemas dos LLMs, é teñen problemas coa “factualidade”, non son factuais, é dicir, eles falan do que teñen os datos, pero tanto os datos verídicos como os que saen de bulos. Eles non distinguen o que é falso do que é verdade”.
Teñen que aparecer aí as RAG (Retrieval Augmented Generation), outra ferramenta (“nada que ver coa Real Academia Galega”, sinala entre risas), que están preparando dende o proxecto. “Estas RAGs tratan de ofrecer información que consideramos fiables para minimizar eses erros que proveñen precisamente da invormación falsa”, o que tamén se lle coñece co eufemismo de “aluciacións”.

”Esa cantidade de información inxente provoca que moitas veces respondan con esas “alucinacións”, e para minimizalas intentamos facer o seguinte. Queres que o modelo xere un texto que utilice como base, non todo o que aprendiu, senón cousas só o que hai a través dunha fonte que nós consideramos fiable. Como sabemos que o que chupou está cheo de realidades, pedimos que para responder vaia só a unha certa información, neste caso que teña aparecido no Nós Diario, o primeiro diario co que colaboramos e que consideramos fiable, pero pronto o faremos con outras cabeceiras, para que xere unha resposta sobre ese contexto que foi recuperada só do xornal, minimizando así os erros máis relacionados cos bulos. É dicir, para certas pesquisas, elaboramos un modelo de lingua que está restriinxido para xerar infromación só dunha fonte que nós consideramos que era veraz”.

De onde sae o nome Carballo?

Non foi a nosa capital de Bergantiños, nin Ricardo Carvalho Calero os que influíron na creación do singular nome de Carballo/Carvalho para esta LLM. “Para o nome buscábamos un nome común con Portugal porque estabamos traballando con xente de Évora. E estivemos mirando que nomes curiosos poñen por aí: por exemplo a empresa Meta chámanlle aos seus LLMs, “Llama”; os cataláns chámanlle “Salamandra”; e os vascos “Latxa”, que é un tipo de cordeiro. Aquí pensamos en buscar nomes de árbores, e queríamos unha árbore cun nome común en galego e en portugués. En principio pensamos nas sobreiras (sobreiros ou azinheiras en portugués), pero como aquí hai poucas, decidimos “carballo/carvalho”, explica, deixando ademais unha idea ben interesante: “Os modelos que beben de galego e portugués, que funcionan mellor que os que están adestrados só en galego”.

Máis novas