Intelligence artificielle en médecine interne – collègue ou concurrente?

Point fort
Édition
2024/26
DOI:
https://doi.org/10.4414/bms.2024.1499923980
Bull Med Suisses. 2024;105(26):

Affiliations
a Dr méd., Klinik für Innere Medizin, Universitätsspital Basel
b Prof. Dr méd., CMIO Innovation Office, Universitätsspital Basel

Publié le 26.06.2024

Nouvelle ère
L’intelligence artificielle (IA) est un terme informatique très vaste qui, dans le contexte de la maturité commerciale des grands modèles de langage, est omniprésent dans le débat actuel sur l’avenir de la médecine. Sous quelle forme et dans quelle fonction allons-nous intégrer l’IA en médecine interne afin de pouvoir relever les défis d’une société vieillissante, d’un manque de relève et d’un début de croissance exponentielle des connaissances?
La médecine interne est confrontée à de grands défis. En raison du vieillissement de la population, de l’allongement de l’espérance de vie et de la pression économique, il faut s’attendre à ce que la charge de travail augmente [1]. Outre la quantité, il faut également prévoir une augmentation de la complexité des cas. En parallèle, le temps consacré à la formation continue, à l’examen des dossiers, à l’échange intercollégial et à la documentation du travail effectué augmente. L’IA peut et va nous aider à relever ces défis.
L'IA doit contribuer à ce que la technique ne s'interpose pas entre le patient et le médecin, mais les assiste en arrière-plan.

Intelligence médicale versus intelligence artificielle

La capacité d’établir le bon diagnostic et de mettre en œuvre le traitement correct par le biais d’une anamnèse ciblée, d’un examen physique et d’investigations précises pourrait être résumée sous le terme «intelligence médicale». En médecine interne, la détermination et la gestion d’un processus thérapeutique se déroulent rarement de manière linéaire, mais sont soumises à une dynamique multifactorielle et impliquent presque toujours des éléments dont la réponse ne peut être que probabiliste. Les nouvelles informations doivent donc être intégrées et traitées en permanence. Tout cela en tenant compte des ressources disponibles ainsi que des besoins et conditions individuels des patientes et patients eux-mêmes. Il n’est pas rare que le processus thérapeutique en médecine interne soit complexe et dynamique et qu’il s’étende sur de longues périodes. Les internistes ont besoin d’une formation de plusieurs années avec des connaissances extrêmement vastes, un haut degré de logique et des capacités de gestion pour pratiquer avec succès et efficacité.
L’IA est un terme générique très vaste issu de l’informatique qui désigne la capacité d’une machine à imiter les capacités humaines telles que la pensée logique, l’apprentissage, la planification et la créativité [2]. Dans le débat actuel, les grands modèles de langage (Large Language Models, LLM) occupent une place prépondérante en tant que forme d’IA présentant prétendument le plus grand potentiel disruptif pour la médecine [3]. Les LLM sont des modèles linguistiques informatiques qui génèrent des textes sur la base de modèles statistiques de séquences de mots et dont les affirmations s’appuient sur de grands ensembles de données. Le développement des LLM progresse rapidement. D’une part, les modèles sont alimentés par de grandes quantités de données toujours plus actuelles pour l’apprentissage, d’autre part, l’ajustement fin s’effectue entre autres par des techniques d’ingénierie de prompt [4].

Médecin-patient-IA – relation triangulaire ou facteur perturbateur?

L’IA offre le potentiel de renforcer la relation médecin-patient. Les chatbots peuvent expliquer des résultats dans un langage simple ou traduire des rapports de sortie à un niveau compréhensible. Il a ainsi été démontré que les LLM sont en mesure de répondre de manière empathique et claire aux questions posées en ligne par les patientes et patients [5].
Un risque majeur lié à l’utilisation des LLM réside dans ce que l’on appelle les confabulations, c’est-à-dire les réponses inventées. Celles-ci peuvent être formulées de manière convaincante et ne pas toujours être reconnues comme manifestement fausses par les utilisatrices et utilisateurs. Par conséquent, les affirmations des systèmes basés sur l’IA doivent être vérifiables. Un résultat formulé de manière plausible mais non vérifiable doit toujours être considéré de manière critique [3]. Il faut partir du principe que les internistes seront de plus en plus souvent confrontés, dans leur quotidien clinique, à des affirmations générées par l’IA que les patientes et patients auront obtenues par exemple par des chatbots. C’est le plus souvent le cas avec l’utilisation d’applications de type «symptom checker». D’une part, certaines de ces applications sont désormais d’une qualité impressionnante, mais d’autre part, le résultat dépend en grande partie de la cohérence des informations fournies et de l’application elle-même. En cas d’affirmations divergentes, un conflit de confiance peut survenir dans la relation médecin-patient [6–8].

Un risque majeur lié à l’utilisation des LLM réside dans ce que l’on appelle les confabulations, qui ne sont pas toujours reconnues de manière évidente.

Dans le processus de traitement médical, la clé du succès réside souvent dans les nuances qui, jusqu’à présent, ne peuvent être perçues que par l’interaction interpersonnelle. Ainsi, une patiente au cabinet de médecine de famille peut être étrangement silencieuse lors d’un contrôle de routine, reflétant un épisode dépressif, ou l’interniste peut percer précocement la façade d’une démence débutante chez son patient de longue date. Mais là aussi, les outils d’analyse vocale basés sur l’IA, qui permettent de tirer des conclusions sur une éventuelle dépression en fonction du ton de la voix et du volume sonore, pourraient à l’avenir aider les internistes dans leur travail [9].

Aide ou concurrente?

En raison des volumes croissants de données, il devient de plus en plus complexe de se faire une idée d’ensemble pour la praticienne ou le praticien. Pour cette raison, une mission essentielle des applications basées sur l’IA est de résumer de grandes quantités de données et de les présenter sous une forme interprétable et compréhensible. Pour cela, il faut que les systèmes puissent recourir à des ensembles de données complets et de haute qualité. Il est dès lors capital non seulement de faire progresser la numérisation de la documentation des patientes et patients, mais aussi de garantir son exhaustivité et son interopérabilité avec d’autres systèmes. Un dossier électronique du patient uniforme avec possibilité d’accès pour les applications basées sur l’IA devient de plus en plus indispensable dans le cadre de la médecine interne.

Manière dont l’IA est utilisée dans la pratique

Précisément dans le domaine des maladies rares, les systèmes basés sur l’IA ont un grand potentiel pour la pose du diagnostic. Ils sont susceptibles de raccourcir le temps de diagnostic, qui est en moyenne de 5–30 ans après le début de la maladie [10]. Le manque de connaissances spécifiques sur les maladies rares et la difficulté de relier les symptômes des différents systèmes d’organes touchés à une maladie rare sont les principaux facteurs expliquant ce retard [11].
Dans la pratique quotidienne de la médecine interne, l’échographie au point d’intervention (POCUS) est un moyen toujours plus important pour vérifier ou compléter les résultats des examens. La qualité dépend fortement du niveau de formation des utilisatrices et utilisateurs et de la qualité des images obtenues. Les fournisseurs d’échographes commencent désormais à développer des applications basées sur l’IA qui aident à identifier les structures anatomiques en temps réel et fournissent un retour sur la qualité de l’image [12]. Cette technologie basée sur l’IA facilite l’apprentissage des connaissances de base et devrait globalement permettre d’améliorer la qualité en échographie. Une étude randomisée en aveugle datant de 2023, publiée dans Nature, montre que l’IA peut déjà fournir des résultats pertinents en échographie: les mesures de la fraction d’éjection du ventricule gauche basées sur l’IA étaient au moins équivalentes aux mesures conventionnelles. En outre, le résultat a été obtenu plus rapidement par l’IA que par les médecins (supériorité atteinte, mais étude conçue comme une étude de non-infériorité) [13].

Biais systématique

Une étude publiée dans JAMA a montré de manière saisissante l’effet d’un «mauvais aiguillage» par des informations erronées générées par l’IA: la précision diagnostique des médecins diminuait de 11,3% lors de l’évaluation de vignettes de cas de patientes et patients souffrant de détresse respiratoire aiguë lorsqu’un biais systématique était intégré dans l’IA. Il n’y avait pas de différence pertinente si, en plus de l’affirmation générée par l’IA, il y avait également une explication correspondante générée par l’IA. Inversement, la précision diagnostique s’est améliorée de 2,9% en cas d’affirmations non biaisées et de 4,4% en cas de présentation d’une explication supplémentaire générée par l’IA [14]. Il est intéressant de noter que 66,7% des 457 médecins participants ignoraient que les modèles d’IA pouvaient être systématiquement biaisés. L’âge moyen des personnes interrogées était de 34 ans, ce qui correspond à la génération des «enfants du numérique» [14].
Cela souligne l’importance pour les internistes de se former aux principes de fonctionnement de l’IA afin de pouvoir l’utiliser correctement et en toute sécurité dans la routine clinique. Cela implique de savoir que l’IA peut également être sujette à un biais [15].

Algorithme d’analyse entraîné

En médecine interne hospitalière, une étude clinique randomisée prospective réalisée à Taïwan a fait sensation: un algorithme d’analyse entraîné à l’aide de 450 000 ECG a analysé les ECG cliniques de routine de près de 16 000 patientes et patients hospitalisés en médecine interne. Dans le groupe d’intervention, les médecins traitants ont reçu une notification en cas d’identification par l’IA d’un ECG à haut risque. Le critère d’évaluation primaire, à savoir la mortalité toutes causes confondues à 90 jours, a été atteint: 3,6% des patientes et patients du groupe d’intervention sont décédés, contre 4,3% dans le groupe contrôle (HR = 0,83, IC à 95% = 0,70–0,99, p = 0,04). L’effet était encore plus fort dans le groupe à haut risque pris isolément (HR = 0,69, IC à 95% 0,53–0,90, p=0,006) [16–17].

Pourquoi nous devrons tous utiliser l’IA à l’avenir?

Travailler avec l’IA améliorera la qualité de la médecine interne et aidera à relever les défis du futur. Utilisée correctement, l’IA nous aidera tellement dans l’administration, la qualité de l’évaluation des résultats et l’établissement du diagnostic que les internistes pourront à nouveau se consacrer davantage à leur mission principale, qui reste irremplaçable: garder une vue d’ensemble, poser des questions précises, examiner avec exactitude, agir de manière réfléchie, décider de façon responsable et accompagner leurs patientes et patients avec expérience et tact à travers leurs besoins individuels en matière de santé.
Dr méd. Markus Mutke Chef de clinique, Clinique de médecine interne, Hôpital universitaire de Bâle
Prof. Dr méd. Jens Eckstein Médecin adjoint, Clinique de médecine interne et CMIO Département D&ICT, Hôpital universitaire de Bâle
Jens.eckstein[at]usb.ch
1 Burla, L., Widmer, M. & Zeltner, C. (2022). Effectifs et besoins futurs en médecins
spécialistes en Suisse. Partie 1: Total des domaines de spécialité, médecine de premier
recours, pédiatrie, psychiatrie et psychothérapie et orthopédie. Rapport final de l’Obsan et du comité «Coordination de la formation postgrade des médecins» sur mandat du dialogue «Politique nationale suisse de la santé» (rapport Obsan 04/2022). Neuchâtel: Observatoire suisse de la santé
2 European Parliament, Directorate-General for Parliamentary Research Services, Boucher, P., Artificial intelligence – How does it work, why does it matter, and what we can do about it?, European Parliament, 2020, https://data.europa.eu/doi/10.2861/44572
3 Thirunavukarasu, A.J., Ting, D.S.J., Elangovan, K. et al. Large language models in medicine. Nat Med 29, 1930–1940 (2023). https://doi.org/10.1038/s41591-023-02448-8
4 Wang, J., Shi, E., Yu, S., Wu, Z., Ma, C., Dai, H., ... & Zhang, S. (2023). Prompt engineering for healthcare: Methodologies and applications. arXiv preprint arXiv:2304.14670.
5 Ayers JW, Poliak A, Dredze M, et al. Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. JAMA Intern Med. 2023;183(6):589–596. doi:10.1001/jamainternmed.2023.1838
6 Gilbert, S., Harvey, H., Melvin, T. et al. Large language model AI chatbots require approval as medical devices. Nat Med 29, 2396–2398 (2023). https://doi.org/10.1038/s41591-023-02412-6
7 Fraser H, Crossland D, Bacher I, Ranney M, Madsen T, Hilliard R
Comparison of Diagnostic and Triage Accuracy of Ada Health and WebMD Symptom Checkers, ChatGPT, and Physicians for Patients in an Emergency Department: Clinical Data Analysis Study
JMIR Mhealth Uhealth 2023;11:e49995URL: https://mhealth.jmir.org/2023/1/e49995DOI: 10.2196/49995
8 Gilbert S, Mehl A, Baluch A, et al How accurate are digital symptom assessment apps for suggesting conditions and urgency advice? A clinical vignettes comparison to GPs BMJ Open 2020;10:e040269. doi: 10.1136/bmjopen-2020-040269
9 Seneviratne, N., & Espy-Wilson, C. (2021). Speech based depression severity level classification using a multi-stage dilated cnn-lstm model. arXiv preprint arXiv:2104.04195.
10 Ronicke S, Hirsch MC, Türk E, Larionov K, Tientcheu D, Wagner AD. Can a decision support system accelerate rare disease diagnosis? Evaluating the potential impact of Ada DX in a retrospective study. Orphanet J Rare Dis. 2019 Mar 21;14(1):69. doi: 10.1186/s13023-019-1040-6. PMID: 30898118; PMCID: PMC6427854.
11 Visibelli, A.; Roncaglia, B.; Spiga, O.; Santucci, A. The Impact of Artificial Intelligence in the Odyssey of Rare Diseases. Biomedicines 2023, 11, 887. https://doi.org/10.3390/biomedicines11030887
12 "Scan Lab." Butterfly Network, n.d., https://www.butterflynetwork.com/education#scanlab. Zugriff am 3. Mai 2024.
13 He, B., Kwan, A.C., Cho, J.H. et al. Blinded, randomized trial of sonographer versus AI cardiac function assessment. Nature 616, 520–524 (2023). https://doi.org/10.1038/s41586-023-05947-3
14 Jabbour S, Fouhey D, Shepard S, et al. Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Clinical Vignette Survey Study. JAMA. 2023;330(23):2275–2284. doi:10.1001/jama.2023.22295
15 Nazer LH, Zatarah R, Waldrip S, Ke JXC, Moukheiber M, Khanna AK, Hicklen RS, Moukheiber L, Moukheiber D, Ma H, Mathur P. Bias in artificial intelligence algorithms and recommendations for mitigation. PLOS Digit Health. 2023 Jun 22;2(6):e0000278. doi: 10.1371/journal.pdig.0000278. PMID: 37347721; PMCID: PMC10287014.16 Taye, M.M. Theoretical Understanding of Convolutional Neural Network: Concepts, Architectures, Applications, Future Directions. Computation 2023, 11, 52. https://doi.org/10.3390/computation11030052
17 Lin, CS., Liu, WT., Tsai, DJ. et al. AI-enabled electrocardiography alert intervention and all-cause mortality: a pragmatic randomized clinical trial. Nat Med (2024). https://doi.org/10.1038/s41591-024-02961-4

Commentaires

Avec la fonction commentaires, nous proposons un espace pour un échange professionnel ouvert et critique. Celui-ci est ouvert à tous les abonné-e-s SHW Beta. Nous publions les commentaires tant qu’ils respectent nos lignes directrices.