Simulador d'avaluacions

Estima el nombre de vots humans que calen per obtenir un rànquing fiable de models LLM en català, segons l'enfocament clàssic (parelles independents) o un model de rànquing global (Bradley-Terry / Elo).

Paràmetres

Nombre de models

Categories de tasca

Prompts per categoria

Mètode d'agregació

Nivell de confiança

Marge d'error 8,5%

Minuts per vot

Resultats

Parelles de models

—

Cel·les a omplir

—

Vots per cel·la

—

Vots totals
—

Hores humanes

—

Vots per prompt

—

Com es calcula?

Parelles de models: C(n,2) = n·(n−1)/2.

Cel·les: cada (parella × categoria) és una decisió estadística independent — vol dir que volem poder afirmar quin model va millor en cada categoria, no només globalment.

Vots per cel·la (parelles independents): mida mostral per a una proporció binomial amb p=0,5 (cas pitjor): v = (z/m)²·0,25.

Bradley-Terry / Elo: el model global aprofita la transitivitat (si A>B i B>C, hi ha informació indirecta sobre A vs C), de manera que el nombre efectiu de vots per parella es redueix aproximadament en un factor log₂(n)/(n−1) respecte a l'enfocament clàssic. És una heurística per a un dimensionament inicial, no un mètode estadístic formal.

Repartiment per prompt: els vots d'una cel·la es reparteixen entre els prompts d'aquella categoria. Augmentar el nombre de prompts no canvia el total, però redueix els vots per prompt individual (millor cobertura de varietat).

Comparativa de mètodes

Mètode	Vots/cel·la	Vots totals	Hores

L'enfocament clàssic tracta cada (parella × categoria) com una decisió binomial independent. Bradley-Terry/Elo aprofita totes les comparacions per estimar les forces dels models conjuntament, reduint la mostra necessària a mesura que creix el nombre de models.