| HOME | HELP | FEEDBACK | SUBSCRIPTIONS | ARCHIVE | SEARCH | TABLE OF CONTENTS |
Editorial |

* From the Department of Anesthesia, St. Michaels Hospital, University of Toronto, Toronto, Ontario; and the
Department of Anesthesiology and Pain Medicine, University of Alberta, Edmonton, Alberta, Canada.
Address correspondence to: Dr. Patricia Houston, Department of Anesthesia, St. Michaels Hospital, 30 Bond St., Toronto, Ontario M5B 1W8, Canada. Phone: 416-864-5071; Fax 416-864-6014; E-mail: houstonp{at}smh.toronto.on.ca
| The oral examination process gold standard or fools gold |
|---|
|
|
|---|
Reliability is the measure of both the consistency and precision of a testing tool. The three main sources of variability (decreased reliability) in the oral examination process are: 1) examiner related variability; 2) examination related variability; and 3) candidate related variability. In their paper entitled "Poor inter-rater reliability on mock anesthesia oral examinations" in this edition of the Journal, Jacobsohn, Klock, Avidan and the Oral Examination Group present a study which demonstrates poor inter-rater reliability in a mock oral examination context with raters grading in true isolation.2 Twenty-five residents were examined in a mock examination process resembling the American Board of Anesthesiology (ABA) format on two occasions six weeks apart (E1 and E2). The examinations were videotaped and scored by three experienced ABA examiners and three experienced Royal College of Physicians and Surgeons of Canada (RCPSC) examiners in isolation. The examiners were provided with a standardized scoring system and an educational package to aid with standard setting. The inter-rater reliability as determined by using intraclass correlation coefficients was poor: 0.243 (0.1770.305) for E1 and 0.405 (0.3310.470) for E2. For 48% of the candidates examined, the chance of passing or failing was examiner dependent.
Previous studies have demonstrated significantly better inter-rater reliability in the anesthesia oral examination process. Schubert reported inter-rater reliability as generalized reliability coefficients for both final grade received and pass-fail determination on 441 practice oral examinations given to 190 residents using the ABA format.3 Inter-rater reliability was 0.72 for the final grade received and 0.68 for the pass-fail determination. This compares favourably with the results found by Kearney in a study using a structured oral examination format for practice examinations similar to that currently used by the RCPSC.4 Twenty faculty examined 26 residents from two Canadian residency programs (sites A and B). Standardized questions were scored using global rating scales with anchored performance criteria. Each candidate was scored by a pair of examiners at the initial session and again subsequently from a videotaped recording. Inter-rater agreement was 0.51 for time 1 and .79 at time 2 for site A, 0.71 at time 1 and .48 at time 2 for site B. These results were classified as fair to good inter-rater reliability and the wide range of correlations found was felt to be due to several study limitations. The residents examined were at different levels of training with 25% presenting for their first practice oral examination. Evidence suggests that examiners are less consistent when rating poor performances.5 The number of scores per examiner on which correlations were determined was also quite small. Increasing the number of questions per candidate might improve the overall inter-rater reliability.
Some of the same limitations can be found in the current study by Jacobsohn. The residents were from CA1 to CA3 years of residency and the pass rate at both time E1 and time E2 was low. As mentioned previously, poor performance decreases inter-rater reliability. In addition, a limited number of examiners was used and although a package of educational material was provided to the examiners to aid in standard setting, no effort was made to achieve consensus among the examiners as to what constituted an appropriate response and what level of competency the examination was meant to determine. The RCPSC examiners had no prior knowledge of, or experience in using the ABA scoring system, thus, the lack of proper examiners training may have contributed to poor reliability. Finally, analysis of the data may have been more appropriately done using a generalizability theory approach which would have allowed the authors to analyze the variance in the scores due to sources other than inter-rater difference such as the exam content and candidate variability.6
The second major finding in the study by Jacobsohn was that a teaching intervention targeted at oral examination skills did not significantly improve examination performance. As the inter-rater reliability found using their examination format was low, it is likely that their measurement tool was not capable of detecting such an improvement. However, this study did demonstrate that the exercise of taking practice oral examinations significantly improves examination performance. This was previously reported by Schubert who found that oral practice examination pass rate increased with both anesthesia training duration and greater exposure to the oral practice examination.3
No conclusions regarding the reliability or validity of the RCPSC anesthesia certification examinations should be drawn based on the results of Jacobsohns study. The RCPSC Anesthesia Examination Board has introduced many processes to address these issues. Examiners receive standardized training, candidates at similar levels of competency are examined, standard setting activities are performed to determine the level of competency acceptable for success in the examination process, and each candidate on any one day is examined using the same examination tool. The questions are truly standardized in presentation, a rating scale with performance anchors is used to score performance and model answers are created with which to compare the candidates answers. The premise on which the conclusions of the present study is based - that examiners read non-verbal signals from each other which influence their scoring and which the authors surmise may have led to higher reliability coefficients observed in the other studies, is based on tenuous information. The study quoted to support this theory is 40 years old. The examination format used at that time bears little resemblance to that currently in place. The RCPSC has an extensive quality assurance process for its examinations. There is on-going psychometric evaluation of examination results and monitoring of the examination process to ensure standardization of presentation and independence in scoring. The RCPSC Anesthesia Examination Board responds to both changes in knowledge of anesthesiology and changes in educational theory to optimize the reliability and validity of the examination process.
The oral examination remains a popular method of assessment of postgraduate medical trainees. Ideally, the competency of residents could be judged with precision by reliable measures of treatment outcomes or by direct observation of their clinical performance in an objective format acceptable to the candidates, their peers and to the public. Such objective criteria would provide irrefutable evidence of the validity of the examination process. However, neither reliable treatment-outcome indices nor observation formats have been fully developed and validated. Therefore, competence may need to be evaluated using multiple assessment modalities such as written and oral tests complemented by performance-based criteria. Simulation may provide a future method of reliable and valid performance-based evaluation but is not yet well studied or feasible in many centres.7
The physicians of the future need to be equipped with the tools and concepts that foster mindful, attentive and effective deliberation and reflection. Further research and refinement of the oral examination and other tools of evaluation may lead to improved assessment of the physicians mastery of these skills. As Eagle stated "It may be that the greatest strength of the oral examination is not as a measurement instrument but as a teaching device".1 Preparation for the oral examination may lead the candidates not only to a greater command of the knowledge required, but also improve their ability to integrate and communicate ideas and to demonstrate reflective practice.
| Le processus dexamen oral - un vrai ou un faux étalon-or ? |
|---|
|
|
|---|
La fiabilité est la mesure de la constance et de la précision dun outil de test. Les trois principales sources de variabilité (diminution de la fiabilité) du processus dexamen oral sont : 1) la variabilité reliée à lexaminateur, 2) reliée à lexamen et 3) reliée au candidat. Dans leur article intitulé «Le pauvre coefficient dobjectivité dexamens oraux en anesthésie simulés», Jacobsohn, Klock, Avidan et lOral Examination Group présentent une étude qui démontre un pau-vre coefficient dobjectivité dans le contexte dune simulation dexamen oral avec des examinateurs en isolement complet.2 Vingt-cinq résidents ont été interrogés à deux reprises et à six semaines dintervalle (E1 et E2) lors dun examen simulé ressemblant à celui de lAmerican Board of Anesthesiology (ABA). Les examens ont été enregistrés sur bandes vidéo et notés isolément par trois examinateurs expérimentés de lABA et du Collège royal des médecins et chirur-giens du Canada (CRMCC). Les examinateurs pos-sédaient un système de notation standardisé et une trousse pédagogique pour aider à la normalisation. Le coefficient dobjectivité, déterminé par les coefficients de corrélation intraclasses, a été pauvre : 0,243 (0,1770,305) pour E1 et 0,405 (0,3310,470) pour E2. Chez 48 % des candidats examinés, la probabilité de succès ou déchec était liée à lexaminateur.
Des études antérieures ont montré un coefficient dobjectivité significativement meilleur dans le processus dexamen oral en anesthésie. Schubert a décrit le coefficient dobjectivité comme les coefficients dobjectivité généralisés de la note finale reçue et de la détermination du succès ou de léchec de 441 examens oraux de pratique présentés à 190 résidents dans le format de lABA.3 Le coefficient dobjectivité était de 0,72 pour la note finale reçue et de 0,68 pour la détermination du succès ou de léchec. Ces résultats se comparent favorablement à ceux de Kearney dans une étude utilisant un examen oral structuré pour des examens de pratique similaires à ceux qui sont couramment utilisés par le CRMCC.4 Vingt examinateurs ont testé 26 résidents de deux programmes de résidence canadiens (sites A et B). Les questions standardisées ont été notées au moyen déchelles dévaluation globale comportant des critères de performance reconnus. Chaque candidat était noté par deux examinateurs à la première session et encore par la suite à partir de lenregistrement vidéo. La concordance inter-examinateur a été de 0,51 pour le temps 1 et 0,79 au temps 2 pour le site A, 0,71 au temps 1 et 0,48 au temps 2 pour le site B. Ces résultats ont été classés comme étant des coefficients dobjectivité de passables à bons et le grand éventail de corrélations trouvé a été vu comme la conséquence des limites de létude. Les résidents testés avaient une formation de niveau différent et 25 % dentre eux se présentaient pour la première fois à un examen oral simulé. Il est prouvé que les examinateurs sont moins constants à juger des performances pauvres.5 Le nombre de scores par examinateur sur lesquels les corrélations ont été déterminées était aussi plutôt bas. Laugmentation du nombre de questions par candidat aurait pu améliorer le coefficient général dobjectivité.
Des limites semblables apparaissent dans la présente étude de Jacobsohn. Les résidents étaient de CA1 à CA3 ans de résidence et le taux de réussite aux deux examens, E1 et E2, a été faible. Comme on la dit anté-rieurement, une pauvre performance fait baisser le coefficient dobjectivité. De plus, le nombre dexaminateurs était limité et, même si une trousse de matériel pédagogique leur a été fournie pour faciliter la normalisation, aucun effort na été fait pour atteindre un consensus parmi les examinateurs sur ce que constitue une réponse appropriée et sur le niveau de compétence que lexamen était censé déterminer. Les examinateurs du CRMCC navaient pas de connaissance antérieure ou dexpérience du système de notation de lABA. Le manque de formation appropriée des examinateurs peut donc avoir contribué au peu de fiabilité. Finalement, lanalyse des données aurait été mieux faite en utilisant la théorie de la généralisabilité qui aurait permis danalyser la variance des scores dautres sources que la différence inter-examinateur, comme le contenu de lexamen et la variabilité des candidats.6
Le second résultat important de létude de Jacobsohn était quune intervention de formation ciblée sur les techniques de lexamen oral na pas amélioré la performance à lexamen de façon significative. Comme le coefficient dobjectivité trouvé en utilisant leur format dexamen a été bas, il est probable que leur outil de mesure ne pouvait détecter cette amélioration. Cependant, létude a démontré que lexercice dexamens oraux simulés améliore significativement la performance à lexamen. Schubert avait antérieurement trouvé que le taux de réussite de lexamen oral simulé a augmenté avec la durée de la formation en anesthésie et la plus grande exposition à lexamen oral simulé.3
Aucune conclusion sur la fiabilité ou la validité des examens de reconnaissance professionnelle en anesthésie du CRMCC ne peut être tracée sur la base des résultats de létude de Jacobsohn. Le comité dexamen en anesthésie du CRMCC a présenté de nombreux procédés pour régler ces questions. Les examinateurs reçoivent une formation standardisée, des candidats de niveaux de compétence similaires sont examinés, des activités de normalisation sont réalisées pour déterminer le niveau de compétence acceptable pour le succès du processus dexamen et, pour un jour donné, le même matériel est présenté à chaque candidat. Les questions sont standardisées dans leur présentation, une échelle de notation avec des marqueurs de performance est utilisée pour coter la performance et des réponses types sont créées avec lesquelles on peut comparer les réponses des candidats. Lhypothèse sur laquelle les conclusions de la présente étude sont fondées - que les examinateurs ont perçu des signaux non-verbaux les uns des autres, ce qui a influencé leur notation, et ce que les auteurs ont présumé aurait pu conduire aux coefficients de fiabilité plus élevés observés dans dautres études - repose sur des renseignements fragiles. Létude citée pour appuyer cette théorie a 40 ans. Le format de lexamen utilisé à cette époque ressemble peu à celui qui est présentement en vigueur. Le CRMCC a un processus élaboré dassurance de la qualité pour ses examens. Il y a une évaluation psychométrique permanente des résultats dexamen et une surveillance du processus dexamen pour assurer la standardisation de la présentation et lindépendance dans la notation. Le comité dexamen en anesthésie du CRMCC répond aux changements dans les connaissances de lanesthésiologie et dans la théorie pédagogique pour optimaliser la fiabilité et la validité du processus dexamen.
Lexamen oral demeure une méthode populaire dévaluation des études médicales postdoctorales. Idéalement, la compétence des résidents pourrait être jugée avec précision par des mesures fiables des résultats des traitements ou par lobservation directe de la performance clinique dans un format objectif acceptable aux candidats, à leurs pairs et au public. Ces critères objectifs fourniraient une preuve irréfutable de la validité du processus dexamen. Toutefois, ni les indices fiables de résultats de traitement, ni les formats dobservation nont été complètement élaborés et validés. Par conséquent, il faudrait peut-être évaluer la compétence selon des modalités multiples comme des tests écrits et oraux complétés par des critères fondés sur la performance. La simulation peut devenir une méthode dévaluation fiable et valide fondée sur la performance, mais elle nest pas encore bien étudiée ou applicable dans de nombreux centres.7
Les médecins de lavenir doivent avoir les outils et les concepts qui stimulent la discussion et la réflexion conscientes, attentives et efficaces. Dautres recherches et le raffinement de lexamen oral ainsi que dautres outils pourront améliorer lévaluation de la maîtrise quont les médecins de ces techniques. Comme la déclaré Eagle «La plus grande force de lexamen oral nest peut-être pas en tant quinstrument de mesure, mais en tant que technique denseignement».1 La préparation à lexamen oral peut mener les candidats non seulement à une plus grande maîtrise du savoir requis, mais aussi améliorer leur habileté à intégrer et à communiquer des idées et à démontrer une pratique réfléchie.
| References |
|---|
|
|
|---|
2 Jacobsohn E, Klock PA, Avidan M; Oral Examinations Group. Poor inter-rater reliability on mock anesthesia oral examinations. Can J Anesth 2006; 53: 65968.
3 Schubert A, Tetzlaff JE, Tan M, Ryckman JV, Mascha E. Consistency, inter-rater reliability, and validity of 441 consecutive mock oral examinations in anesthesiology: implications for use as a tool for assessment of residents. Anesthesiology 1999; 91: 28898.[Medline]
4 Kearney RA, Puchalski SA, Yang HY, Skakun EN. The inter-rater and intra-rater reliability of a new Canadian oral examination format in anesthesia is fair to good. Can J Anesth 2002; 49: 2326.
5 Burchard KW, Rowland-Morin PA, Coe NP, Garb JL. A surgery oral examination: interrater agreement and the influence of rater characteristics. Acad Med 1995; 70: 10446.[Medline]
6 Brennan RL, Johnson EG. Generalizability of performance assessments. Educational Measurement: Issues and Practice 1995; 14: 912.
7 Savoldelli GL, Naik VN, Joo HS, Houston PL, Graham M, Yee B, Hamstra SJ. Evaluation of patient simulator performance as an adjunct to the oral examination for senior anesthesia residents. Anesthesiology 2006; 104: 47581.[Medline]
Related articles in CJA:
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| HOME | HELP | FEEDBACK | SUBSCRIPTIONS | ARCHIVE | SEARCH | TABLE OF CONTENTS |