یوه نوې څیړنه معاینه کوي چې څنګه د ژبې لوی ماډلونه په مختلف طبي شرایطو کې ترسره کوي ، پشمول د ریښتیني عاجل خونې قضیې - چیرې چې لږترلږه یو ماډل د انساني ډاکټرانو په پرتله خورا دقیق بریښي. دا څیړنه پدې اونۍ کې په ساینس کې خپره شوې او د هارورډ میډیکل ښوونځي او بیت اسرایل ډیکونس طبي مرکز کې د ډاکټرانو او کمپیوټر ساینس پوهانو لخوا رهبري شوي د څیړنې ټیم څخه راځي. څیړونکو وویل چې دوی بیلابیل تجربې ترسره کړي ترڅو اندازه کړي چې څنګه د OpenAI ماډلونه د انسان ډاکټرانو په پرتله.

یوه نوې څیړنه معاینه کوي چې څنګه د ژبې لوی ماډلونه په مختلف طبي شرایطو کې ترسره کوي ، پشمول د ریښتیني عاجل خونې قضیې - چیرې چې لږترلږه یو ماډل د انساني ډاکټرانو په پرتله خورا دقیق بریښي.

دا څیړنه پدې اونۍ کې په ساینس کې خپره شوې او د هارورډ میډیکل ښوونځي او بیت اسرایل ډیکونس طبي مرکز کې د ډاکټرانو او کمپیوټر ساینس پوهانو لخوا رهبري شوي د څیړنې ټیم څخه راځي. څیړونکو وویل چې دوی بیلابیل تجربې ترسره کړي ترڅو اندازه کړي چې څنګه د OpenAI ماډلونه د انسان ډاکټرانو په پرتله.

په یوه تجربه کې، څیړونکو په 76 ناروغانو تمرکز وکړ چې د بیت اسرایل بیړنۍ خونې ته راغلي، د دوه حاضرو ډاکټرانو لخوا وړاندیز شوي تشخیصونه د OpenAI د o1 او 4o ماډلونو لخوا رامینځته شوي پرتله کول. دا تشخیصونه د دوه نورو حاضرو ډاکټرانو لخوا ارزول شوي، چې نه پوهیدل چې کوم د انسانانو څخه راغلي او کوم د AI څخه راغلي.

"په هر تشخیصي ټچ پوائنټ کې، o1 یا د دوه حاضرو ډاکټرانو او 4o سره په پرتله یا په پرتله ښه فعالیت کړی،" مطالعې وویل، او زیاته یې کړه چې توپیرونه "په ځانګړې توګه د لومړي تشخیصي ټچ پواینټ (لومړني ER ټریج) کې څرګند شوي، چیرې چې د ناروغ په اړه لږ تر لږه معلومات شتون لري او د سمې پریکړې کولو لپاره خورا بیړنۍ اړتیا ده."

د مطالعې په اړه د هارورډ میډیکل ښوونځي مطبوعاتي اعالمیه کې ، څیړونکو ټینګار وکړ چې دوی "په هیڅ ډول معلومات دمخه پروسس نه کړي" - د AI ماډلونه د ورته معلوماتو سره وړاندې شوي چې د هر تشخیص په وخت کې په بریښنایی طبي ریکارډونو کې شتون درلود.

د دې معلوماتو سره، د o1 ماډل په 67٪ ټریج قضیو کې "دقیق یا خورا نږدې تشخیص" وړاندیز وکړ، د یو ډاکټر په پرتله چې دقیق یا نږدې تشخیص یې 55٪ وخت درلود، او بل هغه څوک چې د وخت 50٪ نښه یې وهلې وه.

"موږ د AI ماډل په حقیقت کې د هر بنچمارک په مقابل کې ازموینه وکړه ، او دا دواړه مخکیني ماډلونه او زموږ د ډاکټر اساساتو ته مخه کړه ،" ارجن منرای وویل ، چې د هارورډ میډیکل ښوونځي کې د AI لابراتوار مشر دی او د مطالعې مخکښ لیکوالانو څخه دی ، په مطبوعاتي اعلامیه کې.

د روښانه کیدو لپاره ، مطالعې ادعا نده کړې چې AI چمتو دی په بیړني خونه کې د ریښتیني ژوند یا مرګ پریکړې کولو لپاره. پرځای یې، دا وویل چې موندنې د ریښتینې نړۍ د ناروغانو پاملرنې ترتیباتو کې د دې ټیکنالوژیو ارزولو لپاره د احتمالي محاکمو بیړنۍ اړتیا ښیې.

څیړونکو دا هم یادونه وکړه چې دوی یوازې دا مطالعه کړې چې ماډلونه څنګه ترسره کوي کله چې د متن پر بنسټ معلومات چمتو شوي، او دا چې "موجود مطالعات وړاندیز کوي چې اوسني بنسټیز ماډلونه د غیر متنی معلوماتو په استدلال کې ډیر محدود دي."

اډم روډمن، د بیت اسرایل ډاکټر چې د مطالعې مخکښ لیکوالانو څخه هم دی، ګارډین ته وویل چې د AI تشخیصونو په شاوخوا کې "اوس مهال د حساب ورکولو لپاره کوم رسمي چوکاټ شتون نلري"، او دا چې ناروغان لاهم "غواړي انسانان د ژوند یا مرګ پریکړو له لارې لارښوونه وکړي [او] د ننګونې درملنې پریکړو له لارې لارښوونه وکړي".