Inteligența artificială dă primele semne de demență. Aproape toți chatboții AI de top prezintă semne de declin cognitiv

Cu excepția ChatGPT 4o, aproape toate modelele lingvistice mari disponibile public supuse unui test numit Montreal Cognitive Assessment (MoCA) au prezentat semne de deteriorare cognitivă ușoară. Aceste constatări pun în discuție ipoteza că inteligența artificială va înlocui în curând medicii umani, deoarece deficitul cognitiv evident la principalii chatboți poate afecta diagnosticarea medicală și încrederea pacienților, potrivit cercetării publicate în jurnalul științific Bmj.
Lidia Neagu - vin, 27 dec. 2024, 16:55
Inteligența artificială dă primele semne de demență. Aproape toți chatboții AI de top prezintă semne de declin cognitiv

Progresele uriașe în domeniul inteligenței artificiale au dus la o serie de speculații entuziaste și temătoare cu privire la posibilitatea ca roboții de chat să poată depăși medicii umani.

Mai multe studii au arătat că modelele lingvistice mari (LLM) sunt remarcabil de pricepute la o serie de sarcini de diagnosticare medicală, însă susceptibilitatea lor la deficiențe umane precum declinul cognitiv nu a fost încă examinată.

Pentru a umple acest gol de cunoștințe, cercetătorii au evaluat abilitățile cognitive ale principalelor LLM disponibile publicului – ChatGPT versiunile 4 și 4o (dezvoltat de OpenAI), Claude 3.5 „Sonnet” (dezvoltat de Anthropic) și Gemini versiunile 1 și 1.5 (dezvoltat de Alphabet) – utilizând testul de evaluare cognitivă de la Montreal (MoCA).

Testul MoCA este utilizat pe scară largă pentru detectarea tulburărilor cognitive și a semnelor timpurii de demență, de obicei la adulții în vârstă. Prin intermediul unui număr de sarcini și întrebări scurte, acesta evaluează abilități precum atenția, memoria, limbajul, abilitățile vizuospațiale și funcțiile executive. Scorul maxim este de 30 de puncte, un scor de 26 sau mai mare fiind considerat în general normal.

Instrucțiunile date LLM-urilor pentru fiecare sarcină au fost aceleași cu cele date pacienților umani. Punctajul a urmat liniile directoare oficiale și a fost evaluat de un neurolog în exercițiu.

ChatGPT 4o a obținut cel mai mare scor la testul MoCA (26 din 30), urmat de ChatGPT 4 și Claude (25 din 30), Gemini 1.0 obținând cel mai mic scor (16 din 30).

Toți chatboții au prezentat performanțe slabe în ceea ce privește abilitățile vizual-spațiale și sarcinile executive, cum ar fi sarcina de realizare a traseului (conectarea numerelor și literelor încercuite în ordine crescătoare) și testul de desenare a ceasului (desenarea unui cadran de ceas care arată o anumită oră). Modelele Gemini au eșuat la sarcina de memorare întârziată (memorarea unei secvențe de cinci cuvinte).

Majoritatea celorlalte sarcini, inclusiv numirea, atenția, limbajul și abstractizarea, au fost îndeplinite bine de toate roboții de chat.

Acestea sunt constatări observaționale, iar autorii recunosc diferențele esențiale dintre creierul uman și modelele lingvistice mari.

Cu toate acestea, ei subliniază că eșecul uniform al tuturor modelelor mari de limbaj în sarcinile care necesită abstracție vizuală și funcție executivă evidențiază o zonă semnificativă de slăbiciune care ar putea împiedica utilizarea lor în contexte clinice.

„Nu numai că este puțin probabil ca neurologii să fie înlocuiți în curând de modele lingvistice mari, dar constatările noastre sugerează că aceștia s-ar putea trezi în curând că tratează pacienți noi, virtuali – modele de inteligență artificială care prezintă tulburări cognitive”, au declarat oamenii de știință.

Cu toate acestea, ei recunosc că studiul lor are câteva limitări și spun că ”pe măsură ce capacitățile modelelor lingvistice mari continuă să se dezvolte rapid, versiunile viitoare ale modelelor examinate în această lucrare ar putea fi capabile să obțină scoruri mai bune la testele cognitive și de percepție vizuală și spațială”.

 

Te-ar mai putea interesa și
FOTO Autostrada Bucureștiului A0: Care mai este stadiul lucrărilor la lotul 1 Nord ce ar putea fi dat în trafic anul viitor
FOTO Autostrada Bucureștiului A0: Care mai este stadiul lucrărilor la lotul 1 Nord ce ar putea fi dat în trafic anul viitor
Secretarul de stat în Transporturi Irinel Ionel Scrioșteanu a prezentat sâmbătă imagini cu lotul 1 Nord (17,5 km) din Autostrada Bucureștiului A0 ce urmează să fie dat în trafic anul viitor......
Miliardul Andrej Babis, care va deveni luni noul prim-ministru al Cehiei, anunța că țara sa nu va contribui la garantarea împrumutului acordat Ucrainei din activele înghețate ruse
Miliardul Andrej Babis, care va deveni luni noul prim-ministru al Cehiei, anunța că țara sa nu va contribui la garantarea ...
Republica Cehă nu va oferi nicio garanţie pentru ajutorarea Ucrainei printr-un împrumut finanţat din activele ruseşti ...
Germania va trimite militari în Polonia pentru a consolida frontiera de est a țării
Germania va trimite militari în Polonia pentru a consolida frontiera de est a țării
Germania a anunţat că va trimite un grup de militari în Polonia pentru a ajuta la implementarea unui proiect care are ...
DNSC avertizează cu privire la un nou atac de tip phishing, denumit Spiderman, prin care hackerii copiază perfect site-urile băncilor europene și fură parole și date de card
DNSC avertizează cu privire la un nou atac de tip phishing, denumit Spiderman, prin care hackerii copiază perfect site-urile ...
Un nou tip de atac phishing, denumit Spiderman, este folosit de către infractori pentru a copia perfect site-urile zecilor ...