Dr. Scott Gottlieb este un medic care a fost al 23-lea comisar al Administrației pentru Alimente și Medicamente din Statele Unite. El este un colaborator CNBC și un membru al consiliului de administrație al Pfizer și al altor câteva startup-uri din domeniul sănătății și tehnologiei. De asemenea, este partener la firma de capital de risc New Enterprise Associates. Shani Benezra este membru senior la American Enterprise Institute și fost producător asociat al filmului „Face the Nation” de la CBS News.
Mulți consumatori și furnizori de asistență medicală apelează la chatbot alimentați de modele lingvistice mari pentru a răspunde întrebărilor medicale și a informa opțiunile de tratament. Am decis să vedem dacă există diferențe semnificative în capacitățile clinice între platformele de vârf.
Pentru a obține o licență medicală în Statele Unite, medicii aspiranți trebuie să treacă cu succes trei etape ale examenului de licență medicală din Statele Unite ale Americii (USMLE), a treia și ultima etapă fiind considerată în general cea mai dificilă. Este necesar ca candidații să răspundă corect la aproximativ 60% dintre întrebări și, din punct de vedere istoric, scorurile medii de promovare s-au situat în jurul valorii de 75%.
Când am dat același examen Pasul 3 celor mai importante modele de limbaj mari (LLM), aceștia au avut rezultate semnificativ mai bune decât mulți medici, obținând scoruri care au depășit semnificativ mulți medici.
Dar există câteva diferențe clare între aceste modele.
USMLE Pasul 3, luat de obicei după primul an de rezidențiat, măsoară dacă absolvenții de medicină își pot aplica înțelegerea științei clinice în practica nesupravegheată a medicinei. Acesta evaluează capacitatea medicilor noi de a gestiona îngrijirea pacientului într-o gamă largă de discipline medicale și include întrebări cu răspunsuri multiple și simulări de caz bazate pe computer.
Am izolat 50 de întrebări din testul eșantion 2023 USMLE Pasul 3 pentru a evalua competența clinică pe cinci modele lingvistice mari diferite și am oferit același set de întrebări fiecărei platforme – ChatGPT, Claude, Google Gemeni, Grok și Llama.
Alte cercetări Aceste modele au fost măsurate nivel medicalDar din câte știm, aceasta este prima dată când aceste cinci platforme de top au fost evaluate pozitiv. Aceste rezultate pot oferi consumatorilor și furnizorilor câteva informații despre unde ar trebui să se îndrepte.
Scorurile lor sunt după cum urmează:
- ChatGPT-4o (Open AI) — 49/50 întrebări corecte (98%)
- Nor 3,5 (antropic) — 45/50 (90%)
- Gemini Premium (Google) — 43/50 (86%)
- Grok (xAI) — 42/50 (84%)
- HuggingChat (Llama) – 33/50 (66%)
În experimentele noastre, ChatGPT-4o de la OpenAI a avut cele mai bune rezultate, obținând 98%. Oferă analize medicale detaliate folosind un limbaj care amintește de profesioniștii medicali. Nu numai că oferă un răspuns cu un raționament amplu, dar îl pune și în contextul procesului de luare a deciziilor, explicând de ce răspunsurile alternative sunt mai puțin adecvate.
Claude de la Anthropic a ajuns pe locul doi cu un scor de 90%. Oferă un răspuns mai uman printr-un limbaj mai simplu și o structură de puncte care poate fi mai acceptabilă pentru pacienți. Gemenii, care au obținut un scor de 86%, au dat răspunsuri mai puțin amănunțite decât ChatGPT sau Claude, făcându-și raționamentul mai greu de descifrat, dar răspunsurile au fost concise și clare.
Grok, chatbot-ul de la xAI al lui Elon Musk, a obținut un scor uimitor de 84%, dar nu a oferit niciun raționament descriptiv în timpul analizei noastre, ceea ce a făcut dificil de înțeles cum a ajuns la răspunsuri. HuggingChat — un site web open source dezvoltat de Yuan Llama – a obținut cel mai mic scor, la 66%, cu toate acestea, a arătat un raționament bun pentru întrebările la care a răspuns corect, oferind răspunsuri concise și link-uri către surse.
O problemă în care majoritatea modelelor au greșit s-a referit la o femeie de 75 de ani cu o ipotetică boală de inimă. Această întrebare îl întreabă pe medic care este următorul pas cel mai potrivit ca parte a evaluării sale. Crowder a fost singurul model care a produs răspunsul corect.
O altă problemă demnă de remarcat s-a concentrat pe un pacient de sex masculin în vârstă de 20 de ani care a prezentat simptome ale unei infecții cu transmitere sexuală. Ca parte a examenului, acesta îl întreabă pe medic care dintre cele cinci opțiuni este următorul pas adecvat. ChatGPT a determinat corect că pacientul ar trebui să programeze un test serologic HIV în termen de trei luni, dar modelul a mers un pas mai departe și a recomandat un test de urmărire în decurs de o săptămână pentru a se asigura că simptomele pacientului se rezolvă și că antibioticele îi acoperă tulpina infecțioasă. . Pentru noi, acest răspuns evidențiază capacitatea modelului de a raționa mai larg, dincolo de alegerile binare prezentate de examen.
Aceste modele nu sunt concepute pentru raționament medical; Sunt produse din spațiul tehnologic de consum, concepute pentru a îndeplini sarcini precum traducerea limbii și generarea de conținut. În ciuda originilor lor non-medicale, ei prezintă abilități surprinzătoare de raționament clinic.
Noi platforme sunt construite special pentru a rezolva probleme medicale. Google a lansat recent Med-GeminiEste o versiune îmbunătățită a modelului Gemini anterior, reglată fin pentru aplicații medicale și echipată cu capabilități de căutare bazate pe web pentru a îmbunătăți raționamentul clinic.
Pe măsură ce aceste modele se dezvoltă, abilitățile lor de a analiza date medicale complexe, de a diagnostica condițiile și de a recomanda tratamente se vor îmbunătăți. Ele pot oferi un nivel de acuratețe și consecvență pe care furnizorii umani se pot lupta uneori să-l egaleze din cauza oboselii și erorilor și deschid calea către un viitor în care portalurile de tratament ar putea fi alimentate de mașini, mai degrabă decât de medici.