| HOME | HELP | FEEDBACK | SUBSCRIPTIONS | ARCHIVE | SEARCH | TABLE OF CONTENTS |
Editorial |

* From the Centre for Clinical Epidemiology and Evaluation, Vancouver Coastal Health Research Institute, and the
Department of Statistics, University of British Columbia, and the Centre for Community Child Health Research, Child and Family Research Institute, Vancouver, British Columbia, Canada.
Address correspondence to: Dr. Penelope M.A. Brasher, Centre for Clinical Epidemiology and Evaluation, Vancouver Coastal Health Research Institute, 828 West 10th Avenue, Vancouver, British Columbia V5Z 1L8, Canada. Phone: 604-875-4111, ext 68167; Fax: 604-875-5179; E-mail: brasher{at}interchange.ubc.ca
| Sample size calculations in randomized trials: common pitfalls |
|---|
|
|
|---|
The sample size calculation
Panel 1
illustrates the sample size calculation for a hypothesis test to compare the averages of two populations where the outcome is continuous. Four components are required: the type I error (
), power, the variance of the outcome measure (
2), and the difference the investigator wishes to detect (µ1µ2). The interested reader is referred to the 2005 article by Schulz and Grimes1 for an excellent introduction to sample size calculations.
|
2. However, this is an unknown quantity and so instead an estimate of the variance must be employed. Frequently, investigators will use an estimate obtained from a pilot study in the patient population of interest. However, unless the pilot study was large, this sample variance is an unreliable estimator of
2 and its use may result in the actual power of the planned study being less than the planned power.2 To mitigate this problem Browne suggests calculating an upper one-sided confidence limit for the population variance from the pilot data in accordance with the planned power (e.g., an 80% upper limit for power of 80%) and then using this upper limit in the sample size calculation for the planned trial.
For the same reason, it is unwise to base a sample size calculation on the observed difference in a pilot study. As shown in Panel 1
, the sample size calculation is based on the difference in the population means. The observed difference from the pilot study is an estimate of this difference and is subject to sampling error; not accounting for the imprecision of this estimate in the sample size calculation will lead to underpowered studies.3 While one could take account of the imprecision in the sample size calculation, replication of a difference observed in a small pilot study is not the best approach.
Instead, the trial should be powered to detect a minimal clinically important difference (MCID). Jaeschke, Singer and Guyatt4 defined the minimal important difference as "the smallest difference in score in the domain of interest which patients perceive as beneficial and which would mandate, in the absence of troublesome side-effects and excessive cost, a change in the patients management". Determining the MCID is often not straightforward. For clinical outcomes one could consider differences that have led to adoption of new therapies in the past. Another approach is to survey experts in the field to determine what difference would need to be demonstrated for them to adopt the new therapy in view of its costs and risks. Spiegelhalter and Freedman describe such an approach in determining the MCID for the CHART trials.5 If the outcome of interest is health-related quality of life the MCID may have been determined during the development of the instrument. For example, Juniper and colleagues determined the MCID for the Asthma Quality of Life Questionnaire during its initial development.6
Some authors have argued that specification of variability and treatment differences can be sidestepped by noting that the calculation depends on the standardized treatment difference (µ1µ2)/
. This is merely mathematical sleight of hand, since a meaningful choice of the standardized difference depends crucially on specifying (µ1µ2).7
Sample sizes based on the expected width of the confidence interval (CI)
A less common approach to sample size calculations for randomized controlled trials is based on a CI approach (Panel 2
). That is, the investigator does not wish to test a hypothesis that one treatment is better than another but rather wishes to estimate the difference between treatments. This approach calculates the sample size required so that the expected width of the CI is no more than some pre-specified value. The actual width of the CI from the trial, however, may be either larger or smaller than the expected width since it will incorporate the sample variance, i.e.,
. We can improve the sample size calculation by accounting for the stochastic nature of s2. That is, we wish to ensure that with a certain probability (power) the width of the CI is no more than a pre-specified value. This can be achieved by including a tolerance probability in the calculation.8
|
Power after the fact
An issue not directly related to a priori sample size calculations but which also warrants comment is post hoc power. Such calculations are misleading, since calculating power is essentially a pre-trial planning step.7,10 Once a trial is completed, CIs convey the range of possible effects consistent with the data.
In many trials the outcomes may not be continuous, as above, but instead may be dichotomous (e.g., success of therapy) or survival (e.g., time to failure). While the details of calculations differ, the substantial issues raised here are still relevant. Whatever the case, while the wide availability of relevant software has greatly eased the technical burden of sample size calculations, such issues should be addressed at the earliest possible phase of trial design. Leaving them as an afterthought to be addressed in the last minute scramble of submitting the proposal may lead to a rejected proposal, or worse, could result in expenditure of time, effort and funding on a scientifically flawed study.
| Calculs de la taille des échantillons dans les études randomisées : pièges fréquents |
|---|
|
|
|---|
Le calcul de la taille de léchantillon
Le tableau 1
illustre le calcul de la taille de léchantillon pour un test dhypothèse comparant les moyennes de deux populations, où la variable est continue. Quatre éléments sont nécessaires : lerreur de type I (
), la puissance, la variance de la variable mesurée (
2), et la différence que lon souhaite détecter (µ1µ2). Le lecteur intéressé peut consulter larticle de Schulz et Grimes1 de 2005, une excellente introduction au calcul des tailles déchantillon.
|
2. Cette quantité est néanmoins inconnue ; cest pourquoi une estimation de la variance est employée. Les chercheurs ont fréquemment recours à une estimation obtenue dans une étude pilote de la population de patients en question. Toutefois, sauf sil sagissait détude pilote denvergure, cette variance de léchantillon est un estimateur imprécis de
2, et son utilisation peut résulter en une perte de puissance de létude.2 Dans le but de réduire ce problème, Browne suggère de calculer une limite de confiance supérieure unilatérale pour la variance de population issue des données pilote selon la puissance voulue (par ex., une limite supérieure de 80% pour une puissance de 80%), et densuite se servir de cette limite supérieure dans le calcul de la taille de léchantillon pour létude planifiée.
Cest également la raison pour laquelle il est déconseillé de baser un calcul de la taille de léchantillon sur la différence observée dans une étude pilote. Comme nous le montrons dans le tableau 1
, le calcul de la taille de léchantillon est basé sur la différence des moyennes de population. La différence observée de létude pilote est une estimation de cette différence et est dès lors sujette à une erreur déchantillonnage ; le fait de ne pas prendre en compte le côté imprécis de cette estimation dans le calcul de la taille de léchantillon résultera en des études de faible puissance.3 Bien quil soit possible de tenir compte de limprécision du calcul de la taille de léchantillon, il est préférable de ne pas chercher à reproduire une différence observée dans une petite étude pilote.
Létude devrait plutôt être dirigée vers la recherche de la différence minimale cliniquement importante (DMCI). Jaeschke, Singer et Guyatt4 définissent la différence minimale importante comme « la plus petite différence dans le domaine dintérêt qui est considérée comme avantageuse par les patients et qui requerrait, en labsence deffets secondaires gênants et de coûts excessifs, un changement dans la prise en charge du patient ». La détermination de la DMCI est souvent complexe. Dans le cas de résultats cliniques, il est possible de prendre en compte les différences ayant par le passé mené à ladoption de nouvelles thérapies. Une autre approche consiste à interroger les experts du domaine afin de déterminer quelle différence leur paraît importante pour ladoption de la nouvelle thérapie au vu de ses coûts et risques. Cette approche est décrite par Spiegelhalter et Freedman pour la détermination de la DCMI dans les études CHART.5 Si le résultat recherché est une qualité de vie liée à la santé, la DCMI a peut-être été définie pendant le processus de développement de linstrument. Par exemple, dans une étude sur lasthme Juniper et coll. ont déterminé la DCMI pour le questionnaire sur la qualité de vie pendant son développement initial.6
Certains auteurs ont défendu quon navait pas besoin de spécifier la variabilité et les différences entre les traitements en remarquant que le calcul dépend de la différence standardisée des traitements (µ1µ2)/
. Ceci nest quune astuce mathématique puisquun choix significatif de la différence standardisée dépend de manière cruciale de la spécification de (µ1µ2).7
Tailles déchantillon basées sur lenvergure escomptée de lintervalle de confiance (IC)
Une approche moins courante dans le calcul de la taille de léchantillon pour des études randomisées et contrôlées se fonde sur une approche basée sur lIC (tableau 2
). Ici, le chercheur ne souhaite pas tester lhypothèse quun traitement est meilleur quun autre, mais plutôt estimer la différence entre les traitements. Cette approche calcule la taille de léchantillon nécessaire afin que lenvergure escomptée de lIC ne soit pas supérieure à une valeur spécifiée au préalable. Lenvergure véritable de lIC de létude peut toutefois être supérieure ou inférieure à lenvergure escomptée, étant donné quelle englobe la variance de léchantillon, cest à dire
. Le calcul de la taille de léchantillon peut être amélioré en tenant compte de la nature stochastique de s2. Ainsi, nous souhaitons nous assurer quavec une certaine probabilité (puissance) lenvergure de lIC ne sera pas plus quune valeur spécifiée au préalable. Ce résultat peut être atteint en incluant une probabilité de tolérance dans le calcul.8
|
Puissance après coup
Une question qui nest pas directement liée au calcul de la taille de léchantillon a priori, mais qui légitime un approfondissement, est la puissance post hoc. De tels calculs sont trompeurs, puisque le calcul de la puissance est essentiellement une étape de planification ayant lieu avant létude.7,10 Une fois létude terminée, la fourchette deffets possibles et cohérents avec les données est mise en évidence par les IC.
Dans de nombreuses études, les résultats peuvent ne pas être continus, comme cest le cas ci-dessus, mais plutôt dichotomiques (par ex. le succès de la thérapie) ou de survie (par ex. le temps jusquà léchec). Bien que les détails des calculs diffèrent, les questions essentielles posées ici sont tout aussi pertinentes. Quel que soit le cas de figure, et bien que laccès à des logiciels pertinents ait grandement facilité le fardeau technique des calculs de taille déchantillon, de telles questions doivent être posées le plus tôt possible lors de la conception dune étude. Si ces calculs sont laissés de côté jusquà la dernière minute avant la soumission du projet, le projet pourrait être rejeté ou pire, avoir pour conséquence des dépenses de temps, dénergie et de fonds pour une étude scientifiquement erronée.
| References |
|---|
|
|
|---|
2 Browne RH. On the use of a pilot sample for sample size determination. Stat Med 1995; 14: 193340.[Medline]
3 Goodman SN. A comment on replication, p-values and evidence. Stat Med 1992; 11: 8759.[Medline]
4 Jaeschke R, Singer J, Guyatt GH. Measurement of health status. Ascertaining the minimal clinically important difference. Control ClinTrials 1989; 10: 40715.
5 Spiegelhalter DJ, Freedman LS. A predictive approach to selecting the size of a clinical trial, based on subjective clinical opinion. Stat Med 1986; 5: 113.[Medline]
6 Juniper EF, Guyatt GH, Willan A, Griffith LE. Determining a minimal important change in a diseasespecific quality of life questionnaire. J Clin Epidemiol 1994; 47: 817.[Medline]
7 Lenth RV. Some practical guidelines for effective sample size determination. Am Stat 2001; 55: 18793.
8 Kupper LL, Hafner KB. How appropriate are popular sample size formulas? Am Stat 1989; 43: 1015.
9 Makuch R, Simon R. Sample size requirements for evaluating a conservative therapy. Cancer Treat Rep 1978; 62: 103740.[Medline]
10 Goodman SN, Berlin JA. The use of predicted confidence intervals when planning experiments and the misuse of power when interpreting the results. Ann Intern Med 1994; 121: 2006.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| HOME | HELP | FEEDBACK | SUBSCRIPTIONS | ARCHIVE | SEARCH | TABLE OF CONTENTS |