Home


Rapport COMPAQH Analyse critique du développement d'indicateurs composites - le cas de l'infarctus du myocarde après la phase aiguë

Rapport COMPAQH Analyse critique du développement d'indicateurs composites - le cas de l'infarctus du myocarde après la phase aiguë. Mai 2010.


Ce rapport a pour objet de faire état du travail concernant la construction d'un indicateur composite portant sur la prise en charge de l'infarctus du myocarde après la phase aiguë. Il fait suite à une demande de la Haute Autorité de Santé (HAS) et de la Direction de la Recherche, des Etudes, de l'Evaluation et des Statistiques (DREES) sur la « possibilité de créer un indicateur composite à partir des six indicateurs généralisés par la HAS en 2008 ».
CONTEXTE
L'état des lieux montre que les indicateurs composites sont largement diffusés dans de nombreux domaines : plus de 300 sont développés aujourd'hui par les organismes internationaux. Un exemple connu est le Human Development Index (HDI) développé par les Nations Unies, qui permet un classement des pays à partir de trois dimensions (l'espérance de vie à la naissance, le taux d'éducation et le PIB par habitant). En France, le rapport sur la mesure des performances économiques et du progrès social, dit « rapport Stiglitz » (2009), recommande également la mise au point d'une mesure synthétique relative à l'estimation de la qualité de vie.
Dans le domaine de la santé, l'Organisation Mondiale de la Santé (OMS) a créé en 2000 un indicateur composite sur l'évaluation de la performance des systèmes de santé, classant les 191 états membres. Plus spécifiquement aux établissements de santé (ES), aux Etats-Unis, le National Committee for Quality Assurance (NCQA) a introduit en 1991 le programme HEDIS qui fournit un classement agrégé basé sur une série d'indicateurs ; en Angleterre, le NHS (National Health Service) diffuse les « League Tables » depuis 2001 ; enfin des initiatives privées (« Healthgrades » aux Etats-Unis, « Dr Foster » en Angleterre, les « palmarès » journalistiques en France, notamment) proposent des classements agrégés. A notre connaissance, spécifiquement à l'Infarctus du Myocarde, une seule initiative, CMS (Centers for Medicare & Medicaid Services), a développé un indicateur composite dans un objectif de comparaison, dans le cadre de son projet de paiement à la performance aux Etats-Unis.
En parallèle, différentes controverses scientifiques accompagnent ces initiatives, ou expriment les plus grandes réserves quant à leur développement. Comme en témoigne ce rapport, différentes études montrent les risques d'injustice associés au classement de producteurs de soins sur une telle base, et dénoncent la faible transparence des critères de choix des méthodes d'agrégation retenues [1-4].
Ce contexte exprime donc une lecture d'ensemble paradoxale : une tendance à l'augmentation des initiatives, alors que des réserves sont exprimées sur le plan scientifique.
Dans ce contexte, l'objectif de cette étude est double : (1) évaluer la sensibilité de plusieurs méthodes d'agrégation sur le classement des ES ; (2) si la publication d'un score agrégé et du classement qui en découle est envisagée, proposer des critères d'aide au choix entre les méthodes d'agrégation, sachant qu'il n'existe pas de « gold standard » par rapport auquel ces méthodes pourraient être évaluées.
METHODES
Notre étude porte sur les 56 ES qui ont fait l'objet de l'expérimentation HAS en 2007, avec une analyse confirmatoire sur les données de la généralisation 2008 (n=275).
Une sélection des six indicateurs généralisés pouvant entrer dans le processus d'agrégation a été réalisée. Cinq indicateurs (pour lesquels au moins 30 dossiers de patients ont été évalués, ce qui permet la comparaison) ont été retenus : Prescription d'aspirine ; Prescription de bêtabloquant ; Mesure de la Fraction d'Éjection du Ventricule Gauche ; Prescription de statine et Sensibilisation aux règles hygiéno-diététiques.
Sept méthodes d'agrégation ont été sélectionnées à partir d'une revue de la littérature et adaptées au cas présent. Chaque méthode s'appuie sur un mode de construction du score spécifique reposant sur des objectifs différents. Les quatre premières partent des résultats des cinq indicateurs :
- Dans la méthode Indicator Average, l'indicateur composite est la moyenne des cinq indicateurs.
- Pour la méthode Budget Allocation Process (BAP), 13 cardiologues proposés par le Conseil National Professionnel de Cardiologie ont réparti un « budget » de 100 points entre les indicateurs à agréger. La moyenne des points ainsi attribués permet de calculer les poids des indicateurs, et le score composite est le résultat de leur somme pondérée.
- La méthode Benefit Of the Doubt (BOD) est une méthode statistique de maximisation sous contraintes qui permet, à partir des résultats observés des indicateurs, de définir un système de poids pour chaque ES qui lui soit le plus favorable possible.
- La méthode Unobserved Component Model (UCM) repose sur l'hypothèse selon laquelle la qualité est une grandeur non mesurable directement mais dont les différentes dimensions sont contenues de façon sous-jacente dans les mesures des indicateurs initiaux.
Dans les trois méthodes suivantes, le score composite agrège les résultats des cinq indicateurs, mais en revenant au niveau du patient :
- L'approche All-or-None consiste à donner un score nul si une seule étape du processus de soin n'a pas été respectée. Le score composite est égal à la proportion de patients dont la prise en charge a été complète.
- Dans la méthode Patient Average, le résultat pour un patient est égal à la moyenne des indicateurs. Le score composite est obtenu en faisant la moyenne des résultats des patients.
- La méthode Denominator-Based Weight (DBW) fournit un indicateur composite égal au ratio de la somme des processus réalisés pour tous les patients d'un ES, divisé par la somme des processus qui auraient dû être réalisés pour tous les patients.
Lorsqu'il n'y a aucune donnée non applicable, ce qui est le cas pour les cinq indicateurs retenus, les méthodes Indicator Average, Patient Average et DBW donnent les mêmes résultats : seules cinq méthodes sont donc comparées.
Pour chaque méthode d'agrégation, un score composite par ES est calculé, puis l'ES est classé dans l'une des trois catégories (« + », « = » et « − »), déterminée par la position de l'intervalle de confiance de son score composite par rapport à la moyenne.
RESULTATS
La méthode BOD fournit les scores les plus élevés ; à l'inverse, la méthode All-or-None produit les scores composites les plus faibles. Par ailleurs, les résultats montrent une sensibilité du classement en fonction de la méthode d'agrégation. D'une part, la concordance (coefficient kappa) est forte entre les trois méthodes BAP, BOD et Indicator Average ; et faible entre la méthode UCM et les autres. D'autre part, les ES changent de classe en fonction des méthodes pour les données de l'expérimentation (80 % dans le cadre de l'expérimentation (n=56), et 71% dans le cadre des données de la généralisation (n=275)). Si l'on excepte la méthode UCM dont plus de 80% des ES sont classés « = », 59% (respectivement 48% sur les données de la généralisation) des ES changent de classe en fonction des méthodes.
DISCUSSION
L'étude sur l'agrégation permet de mettre en évidence le fait que les méthodes ne sont pas équivalentes entre elles puisqu'elles ont une influence sur le classement inter-établissements. Ce résultat confirme les données de la littérature, en le démontrant dans le cas d'un processus homogène, la prise en charge de l'infarctus du myocarde, et en tenant compte de l'incertitude.
Etant donné ce résultat, l'absence d'argument statistique en faveur d'une méthode, et l'absence d'équivalence entre ces mêmes méthodes, deux orientations peuvent être prises.
La première est de considérer que les réserves quant à l'emploi d'une méthode d'agrégation sont suffisantes pour ne pas développer de scores composites. Cette approche présente l'avantage de prendre en considération les limites statistiques qui ont été exprimées dans la littérature ces dernières années. La diffusion des résultats des indicateurs individuels et de la comparaison inter-établissement aux professionnels resterait nécessaire, car utile à leur démarche d'amélioration de la qualité, mais ces informations seraient sans doute peu lisibles pour le public.
Si l'on considère que la demande du public doit être satisfaite, on peut considérer qu'un score composite est nécessaire, ce d'autant que des scores composites sont utilisés dans différentes initiatives et d'autres domaines (économique avec la Banque mondiale, ou rapport « Stiglitz » sur la performance économique et le progrès social). Dans ce cas, la présentation des résultats doit s'accompagner d'une information sur les critères du choix de la méthode utilisée, ainsi que sur les limites inhérentes aux résultats.
Une minimisation du risque d'injustice de classer à tort un établissement « − » peut être envisagée, à travers différentes règles, par exemple, remonter tous les établissements dans la catégorie supérieure, « = » ou « + » lorsqu'une autre méthode les classe mieux (dans notre étude, cela signifierait que 45 établissements seraient remontés, et seuls 3 resteraient « − » quelle que soit la méthode utilisée). Il pourrait aussi être envisagé de ne considérer que les résultats stables toute méthode confondue (ce qui concerne dans notre application 11 ES, 1 « + », 7 « = » et 3 « − »). L'explicitation des logiques sous-jacentes aux méthodes peut également constituer une aide à la décision, comme l'ont suggéré certains auteurs :
- Les méthodes, Indicator Average, Patient Average et DBW, en attribuant des poids égaux, ont l'avantage de la simplicité.
- La méthode All-or-None récompense l'excellence et met en valeur la coordination des soins.
Bien que le calcul soit différent, ces quatre premières méthodes donnent la même importance aux indicateurs, c'est-à-dire aux recommandations qui leurs sont sous-jacentes.
- La méthode BAP confère une légitimité professionnelle à l'indicateur composite.
Elle hiérarchise les recommandations par l'intermédiaire de l'avis d'experts.
- La méthode BOD valorise les établissements en allouant des poids élevés pour les indicateurs pour lesquels ils sont les plus performants.
Elle valorise le respect des recommandations (les résultats) en attribuant les plus grands poids aux indicateurs où l'ES est le plus performant.
- Enfin, la méthode UCM est une méthode qui se distingue de toutes les autres : la qualité est vue comme une variable latente commune à l'ensemble des indicateurs, et extraite des données au moyen d'un modèle mathématique.
Elle s'affranchit donc des considérations précédentes sur les recommandations.
CONCLUSION
En conclusion, nous considérons que le développement d'un score composite pour présenter les résultats des indicateurs de prise en charge de l'infarctus du myocarde après la phase aiguë est, malgré les réserves, un « mal nécessaire ». Des initiatives sont engagées en santé et dans d'autres domaines, et il est fort à parier que cette tendance, déjà perceptible, va s'accroître, la demande sociale étant plutôt en faveur de ces scores. Le rôle du scientifique dans ce cas de figure, en tant qu'aide à la décision des pouvoirs publics, nous semble d'accompagner prioritairement ce développement en exprimant explicitement les réserves, et en maintenant une « veille » de recherche sur les évolutions du débat.
Autrement dit, si une méthode devait être retenue, la transparence sur les critères du choix de la méthode utilisée, ainsi que les limites inhérentes aux résultats, semble nécessaire. L'adhésion des professionnels nous paraît également être un élément incontournable au développement de tels scores. Enfin, la poursuite à titre expérimental de travaux de recherche sur l'agrégation d'autres indicateurs cliniques, notamment dans le cadre des filières de soins (ou dans l'esprit de ce que les anglo-saxons nomment les « care bundles »), et à l'échelle de l'établissement, mériterait d'être poursuivie.
Références
1. Jacobs R et al. How robust are hospital ranks based on composite performance measures? Med Care, 2005; 43(12):1177-84.
2. Reeves D et al. Combining multiple indicators of clinical quality: an evaluation of different analytic approaches. Medical Care, 2007; 45(6):489-96.
3. O'Brien SM et al. Exploring the behavior of hospital composite performance measures: an example from coronary artery bypass surgery. Circulation, 2007; 116(25):2969-75.
4. Shwartz M et al. Estimating a composite measure of hospital quality from the Hospital Compare database: differences when using a Bayesian hierarchical latent variable model versus denominator-based weights. Med Care, 2008; 46(8):778-85.


Lire le rapport...