bàner_de_pàgina

notícies

El Model de Llenguatge Gran (LLM) pot escriure articles persuasius basats en paraules ràpides, aprovar exàmens de competència professional i escriure informació empàtica i amigable per al pacient. Tanmateix, a més dels riscos coneguts de ficció, fragilitat i fets inexactes en el LLM, altres qüestions no resoltes s'estan convertint gradualment en el centre d'atenció, com ara models d'IA que contenen "valors humans" potencialment discriminatoris en la seva creació i ús, i fins i tot si el LLM ja no fabrica contingut i elimina resultats de sortida clarament nocius, els "valors del LLM" encara poden desviar-se dels valors humans.

 

Incomptables exemples il·lustren com les dades utilitzades per entrenar models d'IA codifiquen valors individuals i socials, que poden consolidar-se dins del model. Aquests exemples impliquen una sèrie d'aplicacions, com ara la interpretació automàtica de radiografies de tòrax, la classificació de malalties de la pell i la presa de decisions algorítmiques pel que fa a l'assignació de recursos mèdics. Com s'indica en un article recent de la nostra revista, les dades d'entrenament esbiaixades poden amplificar i revelar els valors i els biaixos presents a la societat. Al contrari, la investigació també ha demostrat que la IA es pot utilitzar per reduir el biaix. Per exemple, els investigadors van aplicar models d'aprenentatge profund a les radiografies de genoll i van descobrir factors que els indicadors de gravetat estàndard (classificats pels radiòlegs) dins de l'articulació del genoll passaven per alt, reduint així les diferències de dolor inexplicables entre pacients negres i blancs.

Tot i que cada cop més gent s'adona del biaix en els models d'IA, especialment pel que fa a les dades d'entrenament, molts altres punts d'entrada dels valors humans no reben prou atenció en el procés de desenvolupament i desplegament dels models d'IA. La IA mèdica ha aconseguit recentment resultats impressionants, però en gran mesura no ha considerat explícitament els valors humans i la seva interacció amb l'avaluació de riscos i el raonament probabilístic, ni tampoc s'ha modelat.

 

Per concretar aquests conceptes abstractes, imagineu-vos que sou un endocrinòleg que ha de receptar hormona del creixement humana recombinant a un nen de 8 anys que es troba per sota del percentil 3 de la seva edat. El nivell d'hormona del creixement humana estimulada del nen és inferior a 2 ng/ml (valor de referència > 10 ng/ml, el valor de referència per a molts països fora dels Estats Units és > 7 ng/ml), i el seu gen codificant de l'hormona del creixement humana ha detectat mutacions d'inactivació rares. Creiem que l'aplicació de la teràpia amb hormona del creixement humana és òbvia i indiscutible en aquest context clínic.

L'aplicació de la teràpia de l'hormona del creixement humà en els següents escenaris pot causar controvèrsia: l'alçada d'un noi de 14 anys sempre ha estat al percentil 10 dels seus companys, i el pic de l'hormona del creixement humà després de l'estimulació és de 8 ng/mL. No es coneixen mutacions funcionals que puguin afectar l'alçada, ni altres causes conegudes de baixa estatura, i la seva edat òssia és de 15 anys (és a dir, sense retard en el desenvolupament). Només una part de la controvèrsia es deu a les diferències en els valors llindar determinats pels experts basant-se en desenes d'estudis sobre els nivells de l'hormona del creixement humà utilitzats per diagnosticar la deficiència aïllada de l'hormona del creixement. Almenys la mateixa controvèrsia prové del balanç risc-benefici de l'ús de la teràpia de l'hormona del creixement humà des de la perspectiva dels pacients, els pares dels pacients, els professionals sanitaris, les companyies farmacèutiques i els pagadors. Els endocrinòlegs pediàtrics poden sospesar els efectes adversos rars de les injeccions diàries d'hormona del creixement durant 2 anys amb la probabilitat de no tenir un creixement o només un creixement mínim de la mida corporal adulta en comparació amb l'actual. Els nois poden creure que, fins i tot si la seva alçada només pot augmentar en 2 cm, val la pena injectar-se l'hormona del creixement, però el pagador i l'empresa farmacèutica poden tenir punts de vista diferents.

 

Prenem com a exemple l'eGFR basat en la creatinina, que és un indicador de funció renal àmpliament utilitzat per diagnosticar i estadificar la malaltia renal crònica, establir condicions de trasplantament o donació de ronyó i determinar criteris de reducció i contraindicacions per a molts medicaments amb recepta. L'EGFR és una equació de regressió simple que s'utilitza per estimar la taxa de filtració glomerular mesurada (mGFR), que és un estàndard de referència, però el mètode d'avaluació és relativament feixuc. Aquesta equació de regressió no es pot considerar un model d'IA, però il·lustra molts principis sobre valors humans i raonament probabilístic.

El primer punt d'entrada perquè els valors humans entrin a l'eGFR és quan se seleccionen dades per a les equacions d'ajust. La cua original utilitzada per dissenyar la fórmula eGFR està composta principalment per participants blancs i negres, i la seva aplicabilitat a molts altres grups ètnics no està clara. Els punts d'entrada posteriors per als valors humans en aquesta fórmula inclouen: seleccionar la precisió de l'mGFR com a objectiu principal per avaluar la funció renal, quin és un nivell de precisió acceptable, com mesurar la precisió i utilitzar l'eGFR com a llindar per desencadenar la presa de decisions clíniques (com ara determinar les condicions per al trasplantament de ronyó o prescriure medicaments). Finalment, quan se selecciona el contingut del model d'entrada, els valors humans també entraran en aquesta fórmula.

Per exemple, abans del 2021, les directrius suggerien ajustar els nivells de creatinina a la fórmula de l'eGFR en funció de l'edat, el sexe i la raça del pacient (només classificats com a individus negres o no negres). L'ajust basat en la raça té com a objectiu millorar la precisió de la fórmula de l'mGFR, però el 2020, els principals hospitals van començar a qüestionar l'ús de l'eGFR basat en la raça, al·legant raons com ara retardar l'elegibilitat del pacient per al trasplantament i concretar la raça com a concepte biològic. La investigació ha demostrat que dissenyar models d'eGFR en termes de raça pot tenir impactes profunds i variables en la precisió i els resultats clínics; per tant, centrar-se selectivament en la precisió o centrar-se en una part dels resultats reflecteix judicis de valor i pot emmascarar la presa de decisions transparent. Finalment, el grup de treball nacional va proposar una nova fórmula que es va reajustar sense considerar la raça per equilibrar les qüestions de rendiment i equitat. Aquest exemple il·lustra que fins i tot una fórmula clínica simple té molts punts d'entrada als valors humans.

Metge amb realitat virtual a la sala d'operacions de l'hospital. Cirurgià que analitza el resultat de les proves cardíaques del pacient i l'anatomia humana en una interfície virtual futurista digital tecnològica, hologràfica digital, innovadora en concepte de ciència i medicina.

En comparació amb les fórmules clíniques amb només un petit nombre d'indicadors predictius, el LLM pot constar de milers de milions a centenars de milers de milions de paràmetres (pesos del model) o més, cosa que dificulta la seva comprensió. La raó per la qual diem "difícil d'entendre" és que en la majoria dels LLM, no es pot cartografiar la manera exacta d'obtenir respostes mitjançant preguntes. El nombre de paràmetres per al GPT-4 encara no s'ha anunciat; el seu predecessor, el GPT-3, tenia 175.000 milions de paràmetres. Més paràmetres no necessàriament signifiquen capacitats més fortes, ja que els models més petits que inclouen més cicles computacionals (com ara la sèrie de models LLaMA [Large Language Model Meta AI]) o els models que s'ajusten finament en funció de la retroalimentació humana tindran un millor rendiment que els models més grans. Per exemple, segons els avaluadors humans, el model InstrumentGPT (un model amb 1.300 milions de paràmetres) supera el GPT-3 en l'optimització dels resultats de sortida del model.

Els detalls específics d'entrenament de GPT-4 encara no s'han revelat, però sí que s'han revelat els detalls dels models de generacions anteriors, inclosos GPT-3, InstrumentGPT i molts altres LLM de codi obert. Avui dia, molts models d'IA vénen amb targetes de model; Les dades d'avaluació i seguretat de GPT-4 s'han publicat en una targeta de sistema similar proporcionada per l'empresa de creació de models OpenAI. La creació de LLM es pot dividir aproximadament en dues etapes: l'etapa inicial de preentrenament i l'etapa d'ajustament fi destinada a optimitzar els resultats de sortida del model. A l'etapa de preentrenament, el model es proporciona amb un gran corpus que inclou el text original d'Internet per entrenar-lo a predir la següent paraula. Aquest procés aparentment simple de "compleció automàtica" produeix un model fonamental potent, però també pot conduir a un comportament nociu. Els valors humans entraran a l'etapa de preentrenament, incloent la selecció de dades de preentrenament per a GPT-4 i la decisió d'eliminar contingut inadequat, com ara contingut pornogràfic, de les dades de preentrenament. Malgrat aquests esforços, el model bàsic pot no ser ni útil ni capaç de contenir resultats de sortida nocius. A la següent etapa d'ajustament fi, sorgiran molts comportaments útils i inofensius.

En la fase d'afinament, el comportament dels models lingüístics sovint es veu alterat profundament mitjançant un ajust supervisat i un aprenentatge per reforç basat en la retroalimentació humana. En la fase d'afinament supervisat, el personal contractat escriurà exemples de resposta per a paraules clau i entrenarà directament el model. En la fase d'aprenentatge per reforç basat en la retroalimentació humana, els avaluadors humans classificaran els resultats de sortida del model com a exemples de contingut d'entrada. A continuació, aplicaran els resultats de la comparació anteriors per aprendre el "model de recompensa" i millorar encara més el model mitjançant l'aprenentatge per reforç. Una sorprenent implicació humana de baix nivell pot afinar aquests grans models. Per exemple, el model InstrumentGPT va utilitzar un equip d'aproximadament 40 personal contractat reclutat de llocs web de crowdsourcing i va superar una prova de cribratge destinada a seleccionar un grup d'anotadors sensibles a les preferències de diferents grups de població.

Com demostren aquests dos exemples extrems, concretament la fórmula clínica simple [eGFR] i el potent LLM [GPT-4], la presa de decisions humanes i els valors humans tenen un paper indispensable en la configuració dels resultats del model. Poden aquests models d'IA capturar els seus diversos valors per a pacients i metges? Com ​​orientar públicament l'aplicació de la IA en medicina? Com ​​s'esmenta a continuació, un reexamen de l'anàlisi de decisions mèdiques pot proporcionar una solució de principis a aquests problemes.

 

L'anàlisi de decisions mèdiques no és familiar per a molts clínics, però pot distingir entre el raonament probabilístic (per a resultats incerts relacionats amb la presa de decisions, com ara si administrar hormona del creixement humana en el controvertit escenari clínic que es mostra a la Figura 1) i els factors de consideració (per a valors subjectius associats a aquests resultats, el valor dels quals es quantifica com a "utilitat", com ara el valor d'un augment de 2 cm en l'alçada masculina), proporcionant solucions sistemàtiques per a decisions mèdiques complexes. En l'anàlisi de decisions, els clínics primer han de determinar totes les decisions i probabilitats possibles associades a cada resultat i, a continuació, incorporar la utilitat del pacient (o altra part) associada a cada resultat per seleccionar l'opció més adequada. Per tant, la validesa de l'anàlisi de decisions depèn de si l'entorn del resultat és exhaustiu, així com de si la mesura de la utilitat i l'estimació de la probabilitat són precises. Idealment, aquest enfocament ajuda a garantir que les decisions estiguin basades en l'evidència i alineades amb les preferències del pacient, reduint així la bretxa entre les dades objectives i els valors personals. Aquest mètode es va introduir al camp mèdic fa diverses dècades i es va aplicar a la presa de decisions individuals del pacient i a l'avaluació de la salut de la població, com ara proporcionar recomanacions per al cribratge del càncer colorectal a la població general.

 

En l'anàlisi de decisions mèdiques, s'han desenvolupat diversos mètodes per obtenir utilitat. La majoria dels mètodes tradicionals deriven el valor directament dels pacients individuals. El mètode més senzill és utilitzar una escala de valoració, on els pacients avaluen el seu nivell de preferència per a un determinat resultat en una escala digital (com ara una escala lineal que va de l'1 al 10), amb els resultats de salut més extrems (com ara la salut completa i la mort) situats als dos extrems. El mètode d'intercanvi de temps és un altre mètode d'ús comú. En aquest mètode, els pacients han de prendre una decisió sobre quant de temps saludable estan disposats a passar a canvi d'un període de mala salut. El mètode estàndard del joc és un altre mètode d'ús comú per determinar la utilitat. En aquest mètode, es pregunta als pacients quina de les dues opcions prefereixen: o bé viure un cert nombre d'anys amb salut normal amb una probabilitat específica (p) (t) i assumir el risc de mort amb una probabilitat d'1-p; o bé assegurar-se de viure durant t anys en condicions de salut creuades. Pregunteu als pacients diverses vegades amb diferents valors p fins que no mostrin cap preferència per cap opció, de manera que la utilitat es pugui calcular en funció de les respostes dels pacients.
A més dels mètodes utilitzats per obtenir les preferències individuals dels pacients, també s'han desenvolupat mètodes per obtenir utilitat per a la població de pacients. Especialment, les discussions en grups focals (que reuneixen pacients per discutir experiències específiques) poden ajudar a comprendre les seves perspectives. Per tal d'agregar eficaçment la utilitat del grup, s'han proposat diverses tècniques de discussió estructurada en grups.
A la pràctica, la introducció directa de la utilitat en el procés de diagnòstic i tractament clínic requereix molt de temps. Com a solució, els qüestionaris d'enquesta se solen distribuir a poblacions seleccionades aleatòriament per obtenir puntuacions d'utilitat a nivell de població. Alguns exemples inclouen el qüestionari de 5 dimensions d'EuroQol, el formulari curt de pes d'utilitat de 6 dimensions, l'Índex d'Utilitat Sanitària i l'eina Qüestionari de Qualitat de Vida Core 30 de l'Organització Europea de Recerca i Tractament del Càncer específic per al càncer.


Data de publicació: 01-06-2024