Simulador d'avaluacions

Estima el nombre de vots humans que calen per obtenir un rànquing fiable de models LLM en català, segons l'enfocament clàssic (parelles independents) o un model de rànquing global (Bradley-Terry / Elo).

Paràmetres

Resultats

Parelles de models
Cel·les a omplir
Vots per cel·la
Vots totals
Hores humanes
Vots per prompt
Com es calcula?

Parelles de models: C(n,2) = n·(n−1)/2.

Cel·les: cada (parella × categoria) és una decisió estadística independent — vol dir que volem poder afirmar quin model va millor en cada categoria, no només globalment.

Vots per cel·la (parelles independents): mida mostral per a una proporció binomial amb p=0,5 (cas pitjor): v = (z/m)²·0,25.

Bradley-Terry / Elo: el model global aprofita la transitivitat (si A>B i B>C, hi ha informació indirecta sobre A vs C), de manera que el nombre efectiu de vots per parella es redueix aproximadament en un factor log₂(n)/(n−1) respecte a l'enfocament clàssic. És una heurística per a un dimensionament inicial, no un mètode estadístic formal.

Repartiment per prompt: els vots d'una cel·la es reparteixen entre els prompts d'aquella categoria. Augmentar el nombre de prompts no canvia el total, però redueix els vots per prompt individual (millor cobertura de varietat).

Comparativa de mètodes

Mètode Vots/cel·la Vots totals Hores

L'enfocament clàssic tracta cada (parella × categoria) com una decisió binomial independent. Bradley-Terry/Elo aprofita totes les comparacions per estimar les forces dels models conjuntament, reduint la mostra necessària a mesura que creix el nombre de models.