Effect of rater training on the reliability of technical skill assessments: a randomized controlled trial

Effect of rater training on the reliability of technical skill assessments: a randomized controlled trial

Can J Surg 2018;61(6):405-411 | PDF | Appendix

Reagan L. Robertson, MD, MSc; Ashley Vergis, MD, MMedEd; Lawrence M. Gillman, MD, MMedEd; Jason Park, MD, MEd

Abstract

Background: Rater training improves the reliability of observational assessment tools but has not been well studied for technical skills. This study assessed whether rater training could improve the reliability of technical skill assessment.

Methods: Academic and community surgeons in Royal College of Physicians and Surgeons of Canada surgical subspecialties were randomly allocated to either rater training (7-minute video incorporating frame-of-reference training elements) or no training. Participants then assessed trainees performing a suturing and knot-tying task using 3 assessment tools: a visual analogue scale, a task-specific checklist and a modified version of the Objective Structured Assessment of Technical Skill global rating scale (GRS). We measured interrater reliability (IRR) using intraclass correlation type 2.

Results: There were 24 surgeons in the training group and 23 in the no-training group. Mean assessment tool scores were not significantly different between the 2 groups. The training group had higher IRR than the no-training group on the visual analogue scale (0.71 v. 0.46), task-specific checklist (0.46 v. 0.33) and GRS (0.71 v. 0.61). However, confidence intervals were wide and overlapping for all 3 tools.

Conclusion: For education purposes, the reliability of the visual analogue scale and GRS would be considered “good” for the training group but “moderate” for the no-training group. However, a significant difference in IRR was not shown, and reliability remained below the desired level of 0.8 for high-stakes testing. Training did not significantly improve assessment tool reliability. Although rater training may represent a way to improve reliability, further study is needed to determine effective training methods.

Résumé

Contexte : La formation des évaluateurs améliore la fiabilité des outils d’évaluation observationnels, mais n’a pas été rigoureusement étudiée au plan des habiletés techniques. Cette étude a tenté de vérifier si la formation des évaluateurs permettait d’améliorer la fiabilité de l’évaluation des habiletés techniques.

Méthodes : On a assigné des chirurgiens universitaires et communautaires appartenant aux surspécialités chirurgicales du Collège royal des médecins et chirurgiens du Canada, soit à une formation des évaluateurs (vidéo de 7 minutes comprenant des éléments de formation afférents au cadre de référence), soit à l’absence de formation. Les participants ont ensuite évalué des stagiaires qui effectuaient tâches, telles sutures et noeuds, à l’aide de trois outils d’évaluation : échelle analogique visuelle, liste de vérification spécifique à la tâche et version modifiée de l’échelle d’appréciation globale (ÉAG) de l’Objective Structured Assessment of Technical Skill. Nous avons mesuré la fiabilité interévaluateurs (FIÉ) à l’aide de la corrélation intraclasse de type 2.

Résultats : Il y avait 24 chirurgiens dans le groupe soumis à la formation et 23 dans le groupe non soumis à la formation. Les scores moyens des outils d’évaluation n’ont pas été significativement différents entre les deux groupes. Le groupe soumis à la formation a présenté une FIÉ plus élevée que l’autre groupe à l’échelle analogique visuelle (0,71 c. 0,46), à la liste de vérification spécifique à la tâche (0,46 c. 0,33) et à l’ÉAG (0,71 c. 0,61). Par contre, les intervalles de confiance étaient larges et se recoupaient pour les trois outils.

Conclusion : Aux fins de la formation, la fiabilité de l’échelle analogique visuelle et de l’ÉAG serait considérée « bonne » pour le groupe soumis à la formation, mais « modérée » pour le groupe non soumis à la formation. On n’a toutefois pas démontré de différence significative quant à la FIÉ et la fiabilité est demeurée inférieure au niveau souhaité de 0,8 pour les tests importants. La formation n’a pas significativement amélioré la fiabilité de l’outil d’évaluation. Même si la formation des évaluateurs représente potentiellement une façon d’améliorer la fiabilité, il faudra approfondir la recherche pour déterminer quelles méthodes de formation sont efficaces.


Abstract presented at the 36th Annual Meeting of the Association for Surgical Education, Boston, Apr. 12–14, 2016.

Accepted Jan. 30, 2018; Early-released Oct. 1, 2018

Affiliation: From the Department of Surgery, University of Manitoba, Winnipeg, Man.

Competing interests: None declared.

Contributors: All authors designed the study. R. Robertson acquired and analyzed the data, which A. Vergis and J. Park also analyzed. R. Robertson and J. Park wrote the article, which all authors reviewed and approved for publication.

DOI: 10.1503/cjs.015917

Correspondence to: J. Park, St. Boniface General Hospital, Z-3031 – 409 Taché Ave, Winnipeg MB R2H 2A6, jpark@sbgh.mb.ca