أول اختبار لـ شات جي بي تي الجديد بعدما أصبح “يسمع ويرى ويتحدث”

سلمى أبو الجاهأكتوبر 4, 2023

0 4 دقائق

أول اختبار لميزات شات جي بي تي الجديد — صورة تعبيرية

أعلنت شركة OpenAI، قبل أسبوعين، أنها أضافت ميزتين جديدتين لبرنامج الدردشة الشهير شات جي بي تي ChatGPT، واللتان تتيحان له القدرة على “الرؤية والاستماع والتحدث”؛ أي أن شات جي بي تي الجديد أصبح قادرا على إجراء محادثات صوتية عبر الاستماع إلى الأوامر والرد عليها صوتيا، والتفاعل مع ما يقدمه له المستخدم من صور ليقدم أجوبة أو مقترحات بشأنها.

يمكن للميزة الأولى، الخاصة بتحليل الصور والرد عليها، العديد من الاستخدامات المتنوعة، كأن تقوم بتزويدك بمعلومات أو اقتراح تعليمات بشأن الصور التي تقوم بتحميلها على البرنامج؛ إذ يمكن أن تحصل مثلا على اقتراحات لوصفات طبخ بناء على صورة لمحتويات ثلاجتك وقس على ذلك.

أما الميزة الثانية، التي تتيح للمستخدمين التحدث إلى شات جي بي تي ChatGPT، فهي أيضا أكثر إثارة للاهتمام؛ إذ تسمح بالتفاعل والحصول الحصول على ردود يتم تسليمها بصوت الذكاء الاصطناعي بالطريقة نفسها التي قد تتحدث بها مع Siri أو Alexa، لكن بشكل أكثر سلاسة وعمقا كما سنرى.

غير أنه لا يستطيع معظم المستخدمين، لحد الآن، الوصول إلى الميزات الجديدة، لكنها ستكون متاحة في الأيام القليلة المقبلة لعملاء ChatGPT Plus وChatGPT Enterprise، في انتظار إتاحتها على نطاق أوسع بعد ذلك.

ChatGPT أصبح الآن يسمع ويتحدث ويرى

أول اختبار عملي للميزات الجديدة لشات جي بي تي ChatGPT

حصل كيفن روز، صحفي في نيويورك تايمز، على وصول مبكر إلى شات جي بي تي الجديد لإجراء اختبار عملي على الميزات الحديثة، وفيما يلي نتائج هذا الاختبار المثيرة للاهتمام.

ميزة التعرف على الصور في شات جي بي تي الجديد

حاول صحفي نيويورك تايمز بداية اختبار تجربة ميزة التعرف على الصور وتحليلها؛ من خلال عرض صور بعض الأغراض والأدوات المنزلية على شات جي بي تي.

في هذا الصدد، قام كيفن روز بتحميل صورة لقطعة غامضة من السيليكون الأزرق تحتوي خمسة ثقوب، ثم سأل شات جي بي تي: “ما هذا الشيء الذي وجدته في درج النفايات الخاص بي؟”.

كانت إجابة شات جي بي تي قريبة بما فيه الكفاية للجواب الصحيح؛ إذ أجاب كالتالي: “يبدو أن الجسم عبارة عن حامل أو قبضة من السيليكون، وغالبا ما يستخدم لربط عناصر متعددة معا”. وقد كان بالفعل مقوي للأصابع تم استخدامه قبل سنوات أثناء التعافي من إصابة في اليد.

بعد ذلك، قام روز بتغذية شات جي بي تي بمجموعة من الصور للأشياء التي كان ينوي بيعها على “Facebook Marketplace”، وطلب منه كتابة قوائم لكل منها.

نجح شات جي بي تي في تثبيت قائمة مناسبة لكل غرض على حدة، ووصف مثلا ثلاجته الصغيرة ذات الطراز القديم بأنها “مثالية لأولئك الذين يقدرون لمسة الماضي في منازلهم الحديثة”، وهي لمسة تسويقية جيدة من روبوت الذكاء الاصطناعي التوليدي.

يمكن لشات جي بي تي الجديد أيضا تحليل النص داخل الصور؛ إذ التقط كيفن روز صورة للصفحة الأولى من نسخة مطبوعة لصحيفة نيويورك تايمز، وطلب من الروبوت تلخيصها، وقد كان أداؤه جيدا؛ بحيث وصف جميع المقالات الخمسة الموجودة على الصفحة في بضع جمل لكل منها، غير أنه ارتكب خطأ واحدا عندما اخترع إحصائية لم تكن موجودة في إحدى المقالات الأصلية.

فشل جات جي بي تي أيضا عندما طُلب منه حل لغز الكلمات المتقاطعة، كما أخطأ بخصوص لعبة ديناصورات محشوة حيث حسبها حوتا، ولم يتمكن من إنجاز قائمة تعليمات حول بعض الرسوم البيانية لتجميع الأثاث وغيرها.

لكن أكبر القيود على ميزة الرؤية في شات جي بي تي هي تلك المتعلقة بصور الوجوه البشرية؛ إذ يرفض تقديم إجابات على معظم هذا النوع من الصور، وذلك لمنع احتمال إصدار إجابات متحيزة أو مسيئة للمطالبات المتعلقة بالمظهر الجسدي للأشخاص، وفقا لـ OpenAI.

ومع ذلك تبقى هذه الميزة مفيدة جدا فيما يخص معالجة المعلومات المرئية، كما أنها تتيح العديد من الإمكانات حسب استخدامات العملاء؛ إذ يمكن أن يستخدمها الطباخ والبستاني والرياضيون والطلبة وغيرهم، وقد تصبح أكثر تطورا مع مرور الوقت.

ميزة السمع والردود الصوتية في شات جي بي تي الجديد

يتم استخدام هذه الميزة بشكل سهل، يكفي الضغط على أيقونة سماعة الرأس والبدء في الحديث. وعند التوقف، يقوم شات جي بي تي بتحويل الكلمات إلى نص باستخدام نظام التعرف على الكلام “Whisper” الخاص بشركة OpenAI، والذي يولد استجابة عبارة عن رد صوتي باستخدام خوارزمية جديدة لتحويل النص إلى كلام طورتها الشركة نفسها.

يكون الرد بصوت أحد الشخصيات الخمسة التي تشمل أصوات الذكور والإناث، وقد تم إنشاؤها باستخدام عينات قصيرة من ممثلين صوتيين محترفين قامت شركة OpenAI بتعيينهم.

اختبر كيفن روز، صحفي في نيويورك تايمز، ميزة شات جي بي تي الصوتية لعدة ساعات؛ إذ طلب منه مجموعة من المهام المختلفة؛ بما في ذلك قراءة قصة قبل النوم لطفله الصغير، والدردشة معه حول التوتر المرتبط بالعمل، ومساعدته في تحليل حلم رآه. وقد كانت جميع الردود جيدة، حتى عندما طلب منه محاكاة صديق أو معالج أو معلم.

من جهة أخرى، تبين من خلال هذه الاختبارات مدى اختلاف التحدث إلى شات جي بي تي عن التحدث إلى الأجيال الأقدم من المساعدين الصوتيين ذوي الذكاء الاصطناعي، مثل Siri وAlexa. فهؤلاء الروبوتات، حتى في أفضل حالاتهم، يمكن أن يكونوا سطحيين ويتحدثون لغة خشبية.

في المقابل، يبدو صوت جي بي تي سلسا وطبيعيا، مع اختلافات طفيفة في النغمة والإيقاع على عكس طريقة كلام باقي الروبوتات. كما كان قادرا على إجراء محادثات طويلة ومفتوحة حول أي موضوع تقريبا فضلا عن تقديم ردود جيدة.

من جهة أخرى تم تسجيل بعض العيوب المتعلقة بالردود الطويلة والبطء أحيانا، وهي نتيجة لبعض المشكلات الفنية في الإصدار التجريبي الذي تم اختباره، والتي سيتم معالجتها في النهاية وفق ما قالت شركة OpenAI.

رغم ذلك، وجد كيفن روز أن تبادل الحديث مع روبوت ذكاء اصطناعي يتحدث إليك بصوت يشبه الإنسان هو تجربة أكثر حميمية من قراءة ردوده على الشاشة، كما يمكن أن تتحدث إليه بشكل عرضي والتوصل إلى المطالبة المثالية للحصول على الاستجابة المناسبة بفضل عدم الارتباط بواجهة نصية.

في هذا الصدد، قال بيتر دينج، نائب رئيس منتجات المستهلكين والمؤسسات في OpenAI، “لأنك لم تعد تنسخ ما لديك في رأسك إلى إبهامك، ينتهي بك الأمر إلى طرح أشياء مختلفة”.

المصدر: نيويورك تايمز