ArXiv، پری پرنٹ ریسرچ کے لیے ایک وسیع پیمانے پر استعمال ہونے والا کھلا ذخیرہ، سائنسی مقالوں میں بڑے زبان کے ماڈلز کے لاپرواہ استعمال کو روکنے کے لیے مزید کام کر رہا ہے۔ اگرچہ کاغذات کا ہم مرتبہ جائزہ لینے سے پہلے سائٹ پر پوسٹ کیا جاتا ہے، arXiv (تلفظ "آرکائیو") ان اہم طریقوں میں سے ایک بن گیا ہے جس میں کمپیوٹر سائنس اور ریاضی جیسے شعبوں میں تحقیق گردش کرتی ہے، اور یہ سائٹ خود سائنسی تحقیق کے رجحانات کے اعداد و شمار کا ذریعہ بن گئی ہے۔

ArXiv، پری پرنٹ ریسرچ کے لیے ایک وسیع پیمانے پر استعمال ہونے والا کھلا ذخیرہ، سائنسی مقالوں میں بڑے زبان کے ماڈلز کے لاپرواہ استعمال کو روکنے کے لیے مزید کام کر رہا ہے۔

اگرچہ کاغذات کا ہم مرتبہ جائزہ لینے سے پہلے سائٹ پر پوسٹ کیا جاتا ہے، arXiv (تلفظ "آرکائیو") ان اہم طریقوں میں سے ایک بن گیا ہے جس میں کمپیوٹر سائنس اور ریاضی جیسے شعبوں میں تحقیق گردش کرتی ہے، اور یہ سائٹ خود سائنسی تحقیق کے رجحانات کے اعداد و شمار کا ذریعہ بن گئی ہے۔

ArXiv نے کم معیار کے، AI سے تیار کردہ کاغذات کی بڑھتی ہوئی تعداد کا مقابلہ کرنے کے لیے پہلے ہی اقدامات کیے ہیں، مثال کے طور پر پہلی بار پوسٹ کرنے والوں کو ایک قائم مصنف سے توثیق حاصل کرنے کی ضرورت ہے۔ اور 20 سال سے زیادہ عرصے تک کارنیل کی میزبانی کے بعد، تنظیم ایک آزاد غیر منفعتی بن رہی ہے، جس سے اسے AI سلوپ جیسے مسائل کو حل کرنے کے لیے مزید رقم اکٹھا کرنے کی اجازت ملنی چاہیے۔

اپنے تازہ ترین اقدام میں، Thomas Dietterich - arXiv کے کمپیوٹر سائنس سیکشن کے سربراہ - نے جُمِرات کو پوسٹ کیا کہ "اگر کسی جمع کرانے میں ناقابل تردید شواہد موجود ہیں کہ مصنفین نے LLM جنریشن کے نتائج کی جانچ نہیں کی، تو اس کا مطلب ہے کہ ہم کاغذ پر کسی بھی چیز پر بھروسہ نہیں کر سکتے۔"

ڈائیٹرچ نے کہا کہ اس ناقابل تردید شواہد میں "فریب شدہ حوالہ جات" اور ایل ایل ایم پر یا اس سے تبصرے جیسی چیزیں شامل ہوسکتی ہیں۔ اگر اس طرح کے شواہد مل جاتے ہیں تو، ایک مقالے کے مصنفین کو "arXiv کی طرف سے 1 سال کی پابندی کا سامنا کرنا پڑے گا جس کے بعد اس شرط کے بعد کہ arXiv کے بعد کی گذارشات کو پہلے ایک معروف ہم مرتبہ کے جائزے والے مقام سے قبول کیا جانا چاہیے۔"

نوٹ کریں کہ یہ LLMs کے استعمال پر صریحاً ممانعت نہیں ہے، بلکہ اس بات پر اصرار ہے کہ جیسا کہ Dietterich نے کہا، مصنفین مواد کے لیے "مکمل ذمہ داری" لیتے ہیں، "چاہے وہ مواد کیسے تیار کیا جائے۔" لہذا اگر محققین براہ راست LLM سے "نامناسب زبان، سرقہ شدہ مواد، متعصب مواد، غلطیاں، غلطیاں، غلط حوالہ جات، یا گمراہ کن مواد" کاپی پیسٹ کرتے ہیں، تب بھی وہ اس کے ذمہ دار ہیں۔

ڈائیٹرچ نے 404 میڈیا کو بتایا کہ یہ ایک "ون سٹرائیک" اصول ہوگا، لیکن ماڈریٹرز کو اس مسئلے کو جھنڈا لگانا چاہیے اور سیکشن چیئرز کو جرمانہ عائد کرنے سے پہلے ثبوت کی تصدیق کرنی چاہیے۔ مصنفین اس فیصلے کے خلاف اپیل بھی کر سکیں گے۔

حالیہ ہم مرتبہ جائزہ شدہ تحقیق سے پتا چلا ہے کہ بائیو میڈیکل ریسرچ میں من گھڑت حوالہ جات میں اضافہ ہو رہا ہے، ممکنہ طور پر LLMs کی وجہ سے — اگرچہ منصفانہ طور پر کہا جائے تو صرف سائنس دان ہی ایسے نہیں ہیں جو AI کے ذریعے بنائے گئے حوالہ جات کا استعمال کرتے ہوئے پکڑے جاتے ہیں۔