ایک نیا مطالعہ اس بات کا جائزہ لیتا ہے کہ زبان کے بڑے ماڈل مختلف طبی سیاق و سباق میں کس طرح کارکردگی کا مظاہرہ کرتے ہیں، بشمول حقیقی ایمرجنسی روم کیسز - جہاں کم از کم ایک ماڈل انسانی ڈاکٹروں سے زیادہ درست معلوم ہوتا ہے۔

یہ مطالعہ اس ہفتے سائنس میں شائع ہوا تھا اور ہارورڈ میڈیکل اسکول اور بیت اسرائیل ڈیکونس میڈیکل سینٹر کے ڈاکٹروں اور کمپیوٹر سائنس دانوں کی سربراہی میں ایک تحقیقی ٹیم سے آیا ہے۔ محققین کا کہنا تھا کہ انھوں نے مختلف قسم کے تجربات کیے تاکہ اندازہ لگایا جا سکے کہ اوپن اے آئی کے ماڈلز انسانی معالجین کے مقابلے میں کیسے ہیں۔

ایک تجربے میں، محققین نے بیت اسرائیل کے ایمرجنسی روم میں آنے والے 76 مریضوں پر توجہ مرکوز کی، جس میں دو حاضری دینے والے معالجین کی طرف سے پیش کردہ تشخیص کا موازنہ OpenAI کے o1 اور 4o ماڈلز سے کیا گیا۔ ان تشخیصوں کا اندازہ دو دیگر حاضری دینے والے معالجین نے کیا، جو نہیں جانتے تھے کہ کون سے انسانوں سے آئے ہیں اور کون AI سے آئے ہیں۔

"ہر تشخیصی ٹچ پوائنٹ پر، o1 نے یا تو حاضری دینے والے دو ڈاکٹروں اور 4o کے مقابلے میں یا اس کے برابر بہتر کارکردگی کا مظاہرہ کیا،" مطالعہ نے مزید کہا کہ اختلافات "خاص طور پر پہلے تشخیصی ٹچ پوائنٹ (ابتدائی ER ٹرائیج) پر واضح کیے گئے تھے، جہاں مریض کے بارے میں کم سے کم معلومات دستیاب ہوتی ہیں اور درست فیصلہ کرنے کی انتہائی ضرورت ہے۔"

مطالعہ کے بارے میں ہارورڈ میڈیکل اسکول کی پریس ریلیز میں، محققین نے اس بات پر زور دیا کہ انہوں نے "ڈیٹا کو بالکل بھی پہلے سے پروسیس نہیں کیا" - AI ماڈلز کو وہی معلومات پیش کی گئیں جو ہر تشخیص کے وقت الیکٹرانک میڈیکل ریکارڈز میں دستیاب تھیں۔

اس معلومات کے ساتھ، o1 ماڈل 67% ٹرائیج کیسز میں "صحیح یا انتہائی قریبی تشخیص" پیش کرنے میں کامیاب ہوا، اس کے مقابلے میں ایک ڈاکٹر جس نے 55% وقت میں درست یا قریب سے تشخیص کی تھی، اور دوسرے کے مقابلے میں جس نے 50% وقت کا نشان لگایا تھا۔

ہارورڈ میڈیکل اسکول میں اے آئی لیب کے سربراہ اور مطالعہ کے سرکردہ مصنفین میں سے ایک ارجن منرائی نے پریس ریلیز میں کہا، "ہم نے عملی طور پر ہر بینچ مارک کے خلاف AI ماڈل کا تجربہ کیا، اور اس نے سابقہ ​​ماڈلز اور ہمارے معالج کی بنیادوں دونوں کو گرہن لگا دیا۔"

واضح طور پر، مطالعہ نے یہ دعوی نہیں کیا کہ AI ہنگامی کمرے میں حقیقی زندگی یا موت کے فیصلے کرنے کے لئے تیار ہے. اس کے بجائے، اس نے کہا کہ نتائج سے ظاہر ہوتا ہے کہ "حقیقی دنیا کے مریضوں کی دیکھ بھال کی ترتیبات میں ان ٹیکنالوجیز کا جائزہ لینے کے لیے ممکنہ آزمائشوں کی فوری ضرورت ہے۔"

محققین نے یہ بھی نوٹ کیا کہ انہوں نے صرف اس بات کا مطالعہ کیا کہ جب ٹیکسٹ پر مبنی معلومات فراہم کی گئیں تو ماڈلز کی کارکردگی کیسی ہے، اور یہ کہ "موجودہ مطالعات سے پتہ چلتا ہے کہ موجودہ فاؤنڈیشن ماڈل غیر متنی آدانوں پر استدلال میں زیادہ محدود ہیں۔"

ایڈم روڈمین، بیت اسرائیل کے ایک ڈاکٹر جو اس مطالعے کے سرکردہ مصنفین میں سے ایک ہیں، نے گارڈین کو بتایا کہ AI کی تشخیص کے ارد گرد "احتساب کے لیے ابھی کوئی باضابطہ فریم ورک نہیں ہے"، اور یہ کہ مریض اب بھی "چاہتے ہیں کہ انسان زندگی یا موت کے فیصلوں میں ان کی رہنمائی کریں [اور] علاج کے چیلنجنگ فیصلوں کے ذریعے ان کی رہنمائی کریں"۔