Estima el nombre de vots humans que calen per obtenir un rànquing fiable de models LLM en català, segons l'enfocament clàssic (parelles independents) o un model de rànquing global (Bradley-Terry / Elo).
Parelles de models: C(n,2) = n·(n−1)/2.
Cel·les: cada (parella × categoria) és una decisió estadística independent — vol dir que volem poder afirmar quin model va millor en cada categoria, no només globalment.
Vots per cel·la (parelles independents): mida mostral per a una proporció binomial amb p=0,5 (cas pitjor): v = (z/m)²·0,25.
Bradley-Terry / Elo: el model global aprofita la transitivitat (si A>B i B>C, hi ha informació indirecta sobre A vs C), de manera que el nombre efectiu de vots per parella es redueix aproximadament en un factor log₂(n)/(n−1) respecte a l'enfocament clàssic. És una heurística per a un dimensionament inicial, no un mètode estadístic formal.
Repartiment per prompt: els vots d'una cel·la es reparteixen entre els prompts d'aquella categoria. Augmentar el nombre de prompts no canvia el total, però redueix els vots per prompt individual (millor cobertura de varietat).
| Mètode | Vots/cel·la | Vots totals | Hores |
|---|
L'enfocament clàssic tracta cada (parella × categoria) com una decisió binomial independent. Bradley-Terry/Elo aprofita totes les comparacions per estimar les forces dels models conjuntament, reduint la mostra necessària a mesura que creix el nombre de models.