Šiame straipsnyje apžvelgiami reikšmingi pasiekimai dirbtinio intelekto ir medicinos srityse. Detaliai nagrinėjama MeCo metodika, leidžianti efektyviau apmokyti ir valdyti kalbos modelius, siekiant geresnių rezultatų ir saugesnės generacijos. Taip pat pristatomi tyrimų rezultatai apie medicininiais posūkiais vadinamų mažos vertės medicinos praktikų nustatymą, atskleidžiantys, kaip atsitiktinių imčių kontroliuojami tyrimai padeda identifikuoti neefektyvius gydymo metodus. Galiausiai, pateikiama 1955 metų svarbiausių įvykių, gimimų ir mirčių chronologija, iliustruojanti praeities kontekstą.
MeCo metodika išnaudoja visuotinai prieinamus metaduomenis, tokius kaip šaltinio URL, pridedant juos prie išankstinio apmokymo dokumentų. MeCo leidžia valdyti kalbos modelius, sąlygojant išvesties užklausą realiais arba suklastotais metaduomenimis, kurie koduoja norimas išvesties savybes. Pavyzdžiui, pridėjus
wikipedia.org
gali būti sumažinama žalinga generacija, ofactquizmaster.com
(suklastotas) gali pagerinti bendrųjų žinių užduočių atlikimą.Šis darbas patvirtina bendrosios paskirties MeCo metodo naudingumą dviem esminiais būdais. Pirma, demonstruojama, kad ši paradigma gali tiesiogiai paspartinti realistinį kalbos modelio išankstinį apmokymą ir pagerinti tolesnių užduočių veikimą. MeCo žymiai pagreitina išankstinį apmokymą. Įrodoma, kad MeCo leidžia 1.6 mlrd. parametrų modeliui pasiekti tą patį vidutinį tolesnių užduočių veikimą kaip ir standartinis iš anksto apmokytas modelis, naudojant 33% mažiau mokymo duomenų.
MeCo atveria naują būdą valdyti kalbos modelius. Atitinkamų realių ar sintetinių URL pridėjimas prie užklausos išvados metu gali sukelti norimą modelio elgesį. Buvo tiriamos MeCo projektavimo parinktys ir parodyta, kad MeCo yra suderinama su skirtingų tipų metaduomenimis. Ablacijos naudojant maišos URL ir modelio sugeneruotas temas rodo, kad pagrindinis metaduomenų vaidmuo yra dokumentų grupavimas pagal šaltinį.
Pagrindiniuose eksperimentuose dokumento URL absoliutus domeno pavadinimas naudojamas kaip c. Eksperimentai buvo atlikti su keturių skirtingų dydžių modeliais: 600M, 1.6B, 3B ir 8B. Pagrindiniams eksperimentams buvo naudojamas geriausiai veikiantis atvirojo kodo išankstinio apmokymo korpusas, DCLM-Baseline (Li et al., 2024). Duomenų atrankai naudojamas fastText duomenų atrankos klasifikatorius iš Li et al. (2024), siekiant atrinkti 70% geriausių dokumentų iš 250 mlrd. žetonų DCLM duomenų rinkinio. Be to, MeCo pranoksta duomenų atrankos bazinę liniją.
Pavaizduoti tolesnių užduočių veikimo pokyčiai visame išankstinio apmokymo procese. Kiekviename MeCo kontroliniame taške yra atvėsinimo fazė su 16 mlrd. žetonų (10% visų mokymo žetonų). Pavyzdžiui, 80 mlrd. žetonų kontrolinis taškas susideda iš 64 mlrd. žetonų sąlyginio mokymo, po kurio seka 16 mlrd. žetonų atvėsinimas. Lentelė 1 atskleidžia, kad patvirtinimo sudėtingumas nekoreliuoja su tolesnių užduočių veikimu eksperimentuose. Svarbu pažymėti, kad lyginant 240 mlrd. žetonų bazinę liniją su 160 mlrd. žetonų MeCo modeliu, bazinė linija rodo daug mažesnį sudėtingumą dėl didesnio duomenų dydžio, tačiau abu modeliai pasiekia panašų vidutinį tolesnių užduočių veikimą.
Figure 2: MeCo tolesnių užduočių veikimas mokymo metu (1.6B modelis DCLM duomenyse). Kiekvienas MeCo kontrolinis taškas pabaigoje apima 16 mlrd. žetonų atvėsinimą. Pateikti vidutiniai skaičiai apima visas 10 užduočių. Vidutiniai skaičiai pateikiami pagal visas 10 užduočių. Figure 4: MeCo taikymo rezultatai skirtinguose išankstinio apmokymo korpusuose (1.6B modeliai, 160 mlrd. žetonų). Visi rezultatai Lentelėje 18. Skirtingai nuo pagrindinio eksperimento, naudojamas nulinio šūvio (zero-shot) užklausimas, siekiant pabrėžti skirtingų URL efektus.

Be to, kad pagerina tolesnių užduočių veikimą, MeCo su sąlygine išvada taip pat sumažina žalingą generaciją. Modelio generacijų toksiškumui įvertinti, Korbak et al. (2023b) metodika naudojama 4096 tekstinių sekų imtis iš modelių, esant temperatūrai T=0.7 ir top-p=0.9. Sugeneruotos sekos yra nuo 10 iki 128 žetonų ilgio. Besąlyginei išvadai modelis sąlygojamas tik BOS žetonu. Toksiškumo balams gauti, naudojama Korbak et al. (2023b) nustatyta sąranka ir toksinių komentarų klasifikatorius Detoxify (Hanu & Unitary team, 2020).
Naudojamas nešališkas Detoxify modelis, pagrįstas RoBERTa (Liu et al., 2019) ir apmokytas ant žmogaus pažymėto beveik 2 milijonų komentarų rinkinio, sukurto neplanuoto šališkumo vertinimo užduočiai (Borkan et al., 2019). Figure 6 parodomi visų paimtų generacijų vidutiniai toksiškumo balai. Pastebima, kad naudojant
en.wikipedia.org
sąlyginei išvadai, sumažėja generacijų toksiškumo balai tiek iš standartinio išankstinio apmokymo modelio, tiek iš MeCo.Lentelėje 4 pateikiamos skirtingos metaduomenimis papildytų ir standartinių duomenų maišymo strategijos. Lentelėje 5 apibendrinami MeCo naudojamų skirtingų metaduomenų ablaciniai tyrimai. Vidutiniai rezultatai pateikiami pagal visas 10 užduočių. Išsamūs rezultatai pateikiami Lentelėje 21. Siekiant geriau suprasti, kaip veikia MeCo, eksperimentuojama su įvairiais metaduomenų tipais ir rezultatai pateikiami Lentelėje 5.
Išsaugomi tik dažniausiai pasikartojantys URL iš DCLM duomenų, o kiti pažymimi kaip „nežinomi“. Llama-3.1-8B-Instruct modeliui nurodoma sugeneruoti dviejų ar trijų žodžių temą kiekvienam dokumentui, pvz., „technologijų lyderio biografija“ arba „žaidimų forumas“ (daugiau informacijos §A.6). Atkreiptinas dėmesys, kad modelių užklausimas generuoti temas yra itin brangus, užtrunkantis maždaug 1 500 GPU valandų, panašiai kaip reikia 1.6 mlrd. parametrų modelio išankstiniam apmokymui.
Dhingra et al. (2022) naudojo laiko žymas kaip metaduomenis, kad apmokytų laiko požiūriu jautrius kalbos modelius. Korbak et al. (2023a) iš anksto apmokė modelius su atlygio modelio balais kaip prefiksu. Neseniai Allen-Zhu & Li (2024) tyrė kalbos modelių gebėjimą įsiminti žinias, naudojant sintetiškai sugeneruotus biografinius duomenis. Jie apmokė modelius ant tokių duomenų ir nesusijusių duomenų mišinio, ir išbandė modelius, ar jie atgamina biografinę informaciją. Jie nustatė, kad specialaus žetono pridėjimas prie biografinių duomenų padidino modelio įsiminimo pajėgumus. Autoriai teigė, kad ši technika padėjo modeliams atpažinti aukštos kokybės šaltinius ir buvo analogiška URL pridėjimui prie išankstinio apmokymo dokumentų. Taip pat išskiriami du konkuruojantys darbai: Zhu et al. (2025) ir Wang et al. (2025). Pirmasis naudoja sintetinius eksperimentus ir teorinę analizę, kad parodytų, jog kontekstu patobulintas mokymasis - pvz., metaduomenų pridėjimas - gali pagerinti imties efektyvumą. Visi tyrimai apsiriboja anglų kalbos korpusais.
Gebėjimas identifikuoti medicininius posūkius ir kitas mažos vertės medicinos praktikas yra esminė prielaida pastangoms sumažinti išlaidas tokioms praktikoms. Analizuojant daugiau nei 3000 atsitiktinių imčių kontroliuojamų tyrimų (RCT), paskelbtų trijuose pirmaujančiuose medicinos žurnaluose (Journal of the American Medical Association, The Lancet ir New England Journal of Medicine), buvo nustatyta 396 medicininiai posūkiai.
Mažos vertės medicinos praktikos yra medicinos praktikos, kurios yra arba neefektyvios, arba kainuoja daugiau nei kitos galimybės, bet siūlo tik panašų efektyvumą (Prasad et al., 2013; Prasad et al., 2011; Schpero, 2014). Tokia praktika gali sukelti fizinę ir emocinę žalą, pakenkti visuomenės pasitikėjimui medicina, turėti tiek alternatyvių (Korenstein et al., 2018), tiek finansinių (Reid et al., 2016; Beaudin-Seiler, 2016) išlaidų.
Medicininiai posūkiai yra mažos vertės medicinos praktikų pogrupis ir apibrėžiami kaip praktikos, kurios atsitiktinių imčių kontroliuojamų tyrimų metu buvo pripažintos ne geresnėmis už ankstesnį ar žemesnį priežiūros standartą (Prasad et al., 2013; Prasad et al., 2011). Tačiau gali būti sunku nustatyti medicininius posūkius. Pavyzdžiui, Cochrane apžvalgos pateikia aukštos kokybės įrodymus apie medicinos praktikas (Garner et al., 2013), tačiau kiekviena apžvalga sutelkta tik į vieną praktiką, o daugelis praktikų nėra peržiūrėtos Cochrane.
Šiame darbe pranešama, kaip sisteminė atsitiktinių imčių kontroliuojamų tyrimų paieška trijuose pirmaujančiuose medicinos žurnaluose - Journal of the American Medical Association (JAMA), The Lancet ir New England Journal of Medicine (NEJM) - nustatė 396 medicininius posūkius. Buvo peržiūrėti JAMA ir The Lancet žurnalai nuo 2003 iki 2017 m., o NEJM - nuo 2011 iki 2017 m., ir nustatyta iš viso 7036 originalūs straipsniai (Figure 1; 2911 JAMA, 2624 The Lancet ir 1501 NEJM).
Buvo 3017 straipsnių, pranešančių apie atsitiktinių imčių kontroliuojamų tyrimų, susijusių su medicinos praktika, rezultatus, ir šie straipsniai buvo toliau koduojami pagal naujumą/įsitvirtinimą ir tai, ar rezultatai buvo teigiami, neigiami ar neįtikinami. Atmetus naujus (n = 1373) arba patvirtintus su teigiamais ar neįtikinamais rezultatais (n = 1229) tyrimus, 415 (14%) tyrimų buvo identifikuoti kaip preliminarūs medicininiai posūkiai.
Daugelis iš šių 396 posūkių buvo sisteminių apžvalgų objektas: 209 atvejais (53%) sisteminė apžvalga patvirtino, kad atitinkama medicinos praktika iš tiesų buvo medicininis posūkis; 109 atvejais (28%) sisteminės apžvalgos rezultatai buvo neįtikinami; ir 78 atvejams (20%) sisteminės apžvalgos nebuvo. Posūkio tyrimų charakteristikos aprašytos Lentelėje 1. Dauguma tyrimų (92%, n = 366) buvo atlikti didelių pajamų šalių populiacijose, o 8% (n = 30) - mažų ar vidutinių pajamų šalyse, įskaitant, bet neapsiribojant, Kiniją, Indiją, Malaiziją, Ganą, Tanzaniją ir Etiopiją.
Širdies ir kraujagyslių ligos buvo dažniausia medicinos kategorija (20%, n = 80), po jų sekė visuomenės sveikata/prevencinė medicina (12%, n = 48) ir intensyvioji terapija (11%, n = 45). Kalbant apie intervencijos tipą, vaistai buvo dažniausi (33%, n = 129), po jų sekė procedūra (20%, n = 81), vitaminai/papildai (13%, n = 53), prietaisas (9%, n = 35) ir sistemos intervencija (8%, n = 30). Finansavimo kategorijų suskirstymas buvo toks (Papildomas failas 1): 253 (63.9%) buvo tik iš nepramoninių šaltinių; 88 (22.2%) buvo iš pramonės ir nepramoninių šaltinių derinio; 36 (9.1%) tik iš pramonės šaltinių; ir 3 (0.8%) iš nepramoninių šaltinių, plius draudimo kompanija (n = 2) arba plėtros bankas (n = 1).
Lentelė 2 apibendrina 20 pasirinktų medicininių posūkių. Pasirinkti pavyzdžiai buvo atrinkti taip, kad atspindėtų įvairių tipų praktikas įvairiose medicinos disciplinose per visus analizės metus. Papildomas failas 2 pateikia visą posūkių santraukų sąrašą.

Ši lentelė pateikia keletą pavyzdžių iš atliktų tyrimų, kurie nustatė medicininius posūkius, t. y., praktikas, kurios anksčiau buvo laikomos veiksmingomis, bet vėliau įrodyta, kad jos nėra geresnės už ankstesnę ar mažesnę priežiūros kokybę.
| RCT ir medicinos disciplina | Posūkio santrauka | Sistemingos apžvalgos išvada |
|---|---|---|
| Morris ir kt. 2016. Neatidėliotinas gimdymas, palyginti su laukiamuoju valdymu po priešlaikinio vaisiaus vandenų maišo plyšimo baigiantis nėštumui (PPROMT tyrimas): atsitiktinių imčių kontroliuojamas tyrimas. The Lancet 387:444-452. [Akušerija ir ginekologija] | Neatidėliotinas gimdymas moterims, kurioms plyšę vandenys 34 savaites ir daugiau, nesukelia mažesnės naujagimių sepsio rizikos, bet susijęs su daugiau kvėpavimo takų sutrikimų. | „Nerasta kliniškai svarbių skirtumų tarp naujagimių sepsio dažnumo moterims, kurios gimdo nedelsiant, ir toms, kurios yra stebimos PPROM metu iki 37 nėštumo savaitės.“ |
| Edmond ir kt. 2015. Ankstyvo naujagimių vitamino A papildymo poveikis mirtingumui kūdikystėje Ganoje (Neovita): atsitiktinių imčių, dvigubai aklas, placebu kontroliuojamas tyrimas. The Lancet 385:1315-1323. [Pediatrija] | Vitamino A papildymas ankstyvuoju naujagimių periodu Afrikoje nepagerina mirtingumo rodiklių. | „Šios apžvalgos pateikti įrodymai nerodo galimo teigiamo vitamino A papildymo efekto naujagimiams gimus, mažinant mirtingumą per pirmuosius šešis ar dvylika gyvenimo mėnesių.“ |
| Conjee ir kt. 2011. Sertralinas arba mirtazapinas depresijai sergant demencija (HTA-SADD): atsitiktinių imčių, daugiacentris, dvigubai aklas, placebu kontroliuojamas tyrimas. The Lancet 378:403-411. [Psichiatrija] | Sertralinas ir mirtazapinas nepagerino depresijos rodiklių Alzheimerio liga sergantiems pacientams, palyginti su placebu. | „Nerasta reikšmingo vaistų ir placebo skirtumo depresijos simptomams.“ |
| Jakicic ir kt. 2016. Nešiojamų technologijų, sujungtų su gyvenimo būdo intervencija, poveikis ilgalaikiam svorio metimui IDEA atsitiktinių imčių klinikinis tyrimas. JAMA 316:1161-1171. [Visuomenės sveikata ir bendroji prevencinė medicina] | Nešiojamos technologijos ilgalaikiam svorio metimui. Standartinė intervencijos grupė numetė daugiau svorio nei patobulintos intervencijos grupė po 24 mėnesių (5.9 kg vs 3.5 kg). | Nors ši apžvalga padarė išvadą, kad nešiojamos technologijos mažina sėdimą elgesį, nebuvo SR/MA apie tai, ar šie prietaisai... |
1955 (MCMLV) buvo įprastiniai metai, prasidėję šeštadienį pagal Grigaliaus kalendorių, 1955-ieji mūsų eros (CE) ir Anno Domini (AD) žymėjimais, 955-ieji 2-ojo tūkstantmečio metai, 55-ieji 20-ojo amžiaus metai ir 6-ieji 1950-ųjų dešimtmečio metai. Šie metai buvo paženklinti daugybe reikšmingų įvykių visame pasaulyje.
Browder v. Gayle
.Newcastle United F.C.
nugalėjoManchester City F.C.
Shiun Maru
nuskendo po susidūrimo su seseriniu laivuUko Maru
tirštame rūke prie Takamacu, Šikoku, Japonijos Seto vidinėje jūroje; žuvo 166 keleiviai (daug vaikų) ir 2 įgulos nariai.El Al Flight 402
iš Vienos (Austrija) į Tel Avivą, per Stambulą, buvo numuštas virš Bulgarijos.