الذكاء الاصطناعي يسعى إلى فهم العالم
ترجمة: قاسم مكي
الثلاثاء / 13 / رجب / 1446 هـ - 21:59 - الثلاثاء 14 يناير 2025 21:59
اللغة مليئة بالأقوال المأثورة التي لها صلة بالرؤية مثل: مَن سَمِع ليس كمن رأى، والصورة تساوي ألف كلمة، وبعيد عن العين بعيد عن البال... والقائمة تطول.
السبب وراء ذلك أن البشر يستمدُّون الكثير من المعاني والفهم من أبصارهم. لكن الرؤية لم تكن دائما ممكنة. فحتى قبل حوالي 540 مليون سنة عاشت كل الكائنات العضوية تحت سطح الماء ولم يكن باستطاعة أي منها رؤية الأشياء. فقط مع ظهور «ثلاثيات الفصوص» صار من الممكن للحيوانات ولأول مرة إدراك وفرة ضوء الشمس حولها.
ما أعقب ذلك كان لافتا. فخلال الفترة التالية التي تراوحت بين 10 ملايين إلى 15 مليون سنة دشَّنت القدرةُ على الإبصار حقبةً تعرف باسم الانفجار «الكامبري». وهي المرحلة التي ظهر فيها أسلاف معظم الحيوانات الحديثة.
أما اليوم فنحن نعيش انفجارا كامبريا معاصرا في الذكاء الاصطناعي. إذ يبدو كأنَّ أداةً جديدة محيرة للعقل تصبح متاحة كل أسبوع.
في البداية كانت وراء ثورةِ الذكاء الاصطناعي التوليدي نماذجُ اللغة الكبيرة مثل «شات جي بي تي» والذي يقلد الذكاء اللفظي للبشر. لكني أعتقد أن الذكاء الذي يرتكز على الرؤية أو ما أسميه الذكاء المكاني هو الأكثر أهمية. اللغة مهمة. غير أن قدرتنا كبشر على إدراك العالم والتفاعل معه ترتكز في معظمها على ما نراه.
منذ فترة طويلة سعى حقل فرعي للذكاء الاصطناعي يُعرف بالرؤية الحاسوبية إلى تعليم الحواسيب على اكتساب نفس الذكاء المكاني الذي لدى البشر أو أفضل منه. حقق هذا الحقل تقدما سريعا خلال فترة الـ15 عاما الماضية. واسترشادا مني باعتقادٍ جوهري وهو وجوب أن تكون منفعة البشر هي الغاية المركزية من تطوير الذكاء الاصطناعي كرستُ مساري المهني له.
الطفل لا يعلِّمه أحد على الرؤية. يَعْقَل الأطفالُ العالمَ من خلال التجارب والأمثال. وعيونهم مثل الكاميرات البيولوجية تلتقط «الصورة» خمس مرات في الثانية. وفي سن الثالثة يكون الطفل قد شاهد مئات الملايين من مثل هذه الصور.
نحن نعلم من خلال عقود من الأبحاث أن التعرُّف على الأشياء عنصر أساسي للرؤية. لذلك بدأنا تعليم الحواسيب هذه القدرة. ولم يكن هذا أمرا يسيرا. هنالك طرق لا نهائية لتحويل صورة ثلاثية الأبعاد للقطَّة مثلا إلى صورة ثنائية الأبعاد وذلك اعتمادا على زاوية الرؤية ووضعية الجسم والخلفية وتفاصيل أخرى. ولكي يتعرف الحاسوب على القطة في صورة ما يحتاج إلى الكثير من المعلومات مثلما هي الحال مع الطفل.
لم يكن ذلك ممكنا إلى أن اجتمعت معا ثلاثة عناصر في منتصف العشرية الأولى من هذا القرن. ففي تلك اللحظة الحاسمة للذكاء الاصطناعي اقترنت خوارزميات تُعرف باسم الشبكات العصبية الالتفافية وكانت موجودة منذ عقود بكل من وحدات معالجة الرسومات الحديثة والبيانات الكبيرة المتمثلة في بلايين الصور من الإنترنت والكاميرات الرقمية وما إلى ذلك. (الشبكات العصبية تعمل مثل الدماغ البشري. وهي قادرة على التعرُّف على خصائص الصور التي تحصل عليها من البيانات الكبيرة. تساعدها في ذلك وحدات معالجة الرسومات الحديثة التي تتيح للحاسوب معالجة متزامنة وبسرعة عالية للمعلومات الكثيرة عن الصور - المترجم).
ساهم مختبرنا بعنصر «البيانات الكبيرة» في الاقتران بين هذه العناصر الثلاثة. ففي عام 2007 وفي مشروع تحت اسم «إميدْج نَيت» أو شبكة الصور أوجدنا قاعدة بيانات لحوالي 15 مليون صورة مُعلَّمة عبر 22000 فئة تصنيفية للأشياء. ثم شرعنا نحن وباحثون آخرون في تدريب نماذج شبكة عصبية باستخدام الصور وعلاماتها النصية. تعلمت هذه النماذج وصف صور لم تُشاهَد من قبل باستخدام جمل بسيطة. وعلى غير المتوقع، ساعد التقدم السريع في أنظمة التعرف على الصور والتي أوجدناها باستخدام قاعدة بيانات «إميدج نيت» في إطلاق ازدهار الذكاء الاصطناعي الحديث.
مع تقدم التقنية دشنت نماذجٌ توليدية جديدة أدواتِ الذكاء الاصطناعي التوليدي. في مجال اللغة أتاح ذلك إيجاد الدردشات الآلية مثل «شات جي بي تي». أما في جانب الرؤية فالأنظمة الحديثة لا تتعرف على الصور والفيديوهات فقط بل يمكنها أيضا توليدها استجابةً لأوامر نصية. والنتائج التي تحققها مثيرة للإعجاب. لكنها لا تزال ذات بُعدين.
لكي تحصل الحواسيب على الذكاء المكاني للبشر يجب أن يكون بمقدورها نَمْذَجَة العالم وتعقُّل الأشياء والأماكن والتفاعل في كل من الزمن والحيِّز ثلاثي الأبعاد. باختصار نحن بحاجة إلى الانتقال من نماذج اللغة الكبيرة إلى نماذج العالم الكبيرة.
بدأنا نشهد «ومضات» من هذا في المختبرات الأكاديمية والصناعية. ومع أحدث نماذج الذكاء الاصطناعي المدربة باستخدام النصوص والصور وأفلام الفيديو والبيانات المكانية من المجسَّات (المستشعرات) والمشغِّلات (العضلات) الروبوتية يمكننا السيطرة على الروبوتات باستخدام الأوامر النصية كأن نطلب منها مثلا فصل الهاتف من الشاحن أو إعداد ساندويتش بسيط. أو يمكن للنموذج بإعطائه صورة ذات بعدين تحويلها إلى عدد لانهائي من صور أمكنة ثلاثية الأبعاد.
تطبيقات هذه التقنية لا نهاية لها. لكم أن تتخيلوا روبوتات يمكنها التنقل في منازل عادية لرعاية كبار السن ومجموعة من الأيدي الروبوتية التي لا تتعب وهي تعاون طبيبا جراحا أو تُستخدَم في التشبيه والتدريب والتعليم. هذا حقا ذكاء اصطناعي يتمركز حول البشر. والذكاء المكاني هو المجال التالي لانطلاقه. ما استغرق مئات الملايين من السنوات لكي يتجلَّى في عقول البشر يحتاج إلى سنوات فقط لكي يظهر في الحواسيب. ونحن البشر سنكون المستفيدين.
فَي- فَي لِي المديرة المشاركة لمبادرة الذكاء الاصطناعي الذي يتمحور حول الإنسان (إتش أيه آي) بجامعة ستانفورد والرئيسة التنفيذية لشركة ويرلد لابس (مختبرات العالم)
عن الإيكونومست
السبب وراء ذلك أن البشر يستمدُّون الكثير من المعاني والفهم من أبصارهم. لكن الرؤية لم تكن دائما ممكنة. فحتى قبل حوالي 540 مليون سنة عاشت كل الكائنات العضوية تحت سطح الماء ولم يكن باستطاعة أي منها رؤية الأشياء. فقط مع ظهور «ثلاثيات الفصوص» صار من الممكن للحيوانات ولأول مرة إدراك وفرة ضوء الشمس حولها.
ما أعقب ذلك كان لافتا. فخلال الفترة التالية التي تراوحت بين 10 ملايين إلى 15 مليون سنة دشَّنت القدرةُ على الإبصار حقبةً تعرف باسم الانفجار «الكامبري». وهي المرحلة التي ظهر فيها أسلاف معظم الحيوانات الحديثة.
أما اليوم فنحن نعيش انفجارا كامبريا معاصرا في الذكاء الاصطناعي. إذ يبدو كأنَّ أداةً جديدة محيرة للعقل تصبح متاحة كل أسبوع.
في البداية كانت وراء ثورةِ الذكاء الاصطناعي التوليدي نماذجُ اللغة الكبيرة مثل «شات جي بي تي» والذي يقلد الذكاء اللفظي للبشر. لكني أعتقد أن الذكاء الذي يرتكز على الرؤية أو ما أسميه الذكاء المكاني هو الأكثر أهمية. اللغة مهمة. غير أن قدرتنا كبشر على إدراك العالم والتفاعل معه ترتكز في معظمها على ما نراه.
منذ فترة طويلة سعى حقل فرعي للذكاء الاصطناعي يُعرف بالرؤية الحاسوبية إلى تعليم الحواسيب على اكتساب نفس الذكاء المكاني الذي لدى البشر أو أفضل منه. حقق هذا الحقل تقدما سريعا خلال فترة الـ15 عاما الماضية. واسترشادا مني باعتقادٍ جوهري وهو وجوب أن تكون منفعة البشر هي الغاية المركزية من تطوير الذكاء الاصطناعي كرستُ مساري المهني له.
الطفل لا يعلِّمه أحد على الرؤية. يَعْقَل الأطفالُ العالمَ من خلال التجارب والأمثال. وعيونهم مثل الكاميرات البيولوجية تلتقط «الصورة» خمس مرات في الثانية. وفي سن الثالثة يكون الطفل قد شاهد مئات الملايين من مثل هذه الصور.
نحن نعلم من خلال عقود من الأبحاث أن التعرُّف على الأشياء عنصر أساسي للرؤية. لذلك بدأنا تعليم الحواسيب هذه القدرة. ولم يكن هذا أمرا يسيرا. هنالك طرق لا نهائية لتحويل صورة ثلاثية الأبعاد للقطَّة مثلا إلى صورة ثنائية الأبعاد وذلك اعتمادا على زاوية الرؤية ووضعية الجسم والخلفية وتفاصيل أخرى. ولكي يتعرف الحاسوب على القطة في صورة ما يحتاج إلى الكثير من المعلومات مثلما هي الحال مع الطفل.
لم يكن ذلك ممكنا إلى أن اجتمعت معا ثلاثة عناصر في منتصف العشرية الأولى من هذا القرن. ففي تلك اللحظة الحاسمة للذكاء الاصطناعي اقترنت خوارزميات تُعرف باسم الشبكات العصبية الالتفافية وكانت موجودة منذ عقود بكل من وحدات معالجة الرسومات الحديثة والبيانات الكبيرة المتمثلة في بلايين الصور من الإنترنت والكاميرات الرقمية وما إلى ذلك. (الشبكات العصبية تعمل مثل الدماغ البشري. وهي قادرة على التعرُّف على خصائص الصور التي تحصل عليها من البيانات الكبيرة. تساعدها في ذلك وحدات معالجة الرسومات الحديثة التي تتيح للحاسوب معالجة متزامنة وبسرعة عالية للمعلومات الكثيرة عن الصور - المترجم).
ساهم مختبرنا بعنصر «البيانات الكبيرة» في الاقتران بين هذه العناصر الثلاثة. ففي عام 2007 وفي مشروع تحت اسم «إميدْج نَيت» أو شبكة الصور أوجدنا قاعدة بيانات لحوالي 15 مليون صورة مُعلَّمة عبر 22000 فئة تصنيفية للأشياء. ثم شرعنا نحن وباحثون آخرون في تدريب نماذج شبكة عصبية باستخدام الصور وعلاماتها النصية. تعلمت هذه النماذج وصف صور لم تُشاهَد من قبل باستخدام جمل بسيطة. وعلى غير المتوقع، ساعد التقدم السريع في أنظمة التعرف على الصور والتي أوجدناها باستخدام قاعدة بيانات «إميدج نيت» في إطلاق ازدهار الذكاء الاصطناعي الحديث.
مع تقدم التقنية دشنت نماذجٌ توليدية جديدة أدواتِ الذكاء الاصطناعي التوليدي. في مجال اللغة أتاح ذلك إيجاد الدردشات الآلية مثل «شات جي بي تي». أما في جانب الرؤية فالأنظمة الحديثة لا تتعرف على الصور والفيديوهات فقط بل يمكنها أيضا توليدها استجابةً لأوامر نصية. والنتائج التي تحققها مثيرة للإعجاب. لكنها لا تزال ذات بُعدين.
لكي تحصل الحواسيب على الذكاء المكاني للبشر يجب أن يكون بمقدورها نَمْذَجَة العالم وتعقُّل الأشياء والأماكن والتفاعل في كل من الزمن والحيِّز ثلاثي الأبعاد. باختصار نحن بحاجة إلى الانتقال من نماذج اللغة الكبيرة إلى نماذج العالم الكبيرة.
بدأنا نشهد «ومضات» من هذا في المختبرات الأكاديمية والصناعية. ومع أحدث نماذج الذكاء الاصطناعي المدربة باستخدام النصوص والصور وأفلام الفيديو والبيانات المكانية من المجسَّات (المستشعرات) والمشغِّلات (العضلات) الروبوتية يمكننا السيطرة على الروبوتات باستخدام الأوامر النصية كأن نطلب منها مثلا فصل الهاتف من الشاحن أو إعداد ساندويتش بسيط. أو يمكن للنموذج بإعطائه صورة ذات بعدين تحويلها إلى عدد لانهائي من صور أمكنة ثلاثية الأبعاد.
تطبيقات هذه التقنية لا نهاية لها. لكم أن تتخيلوا روبوتات يمكنها التنقل في منازل عادية لرعاية كبار السن ومجموعة من الأيدي الروبوتية التي لا تتعب وهي تعاون طبيبا جراحا أو تُستخدَم في التشبيه والتدريب والتعليم. هذا حقا ذكاء اصطناعي يتمركز حول البشر. والذكاء المكاني هو المجال التالي لانطلاقه. ما استغرق مئات الملايين من السنوات لكي يتجلَّى في عقول البشر يحتاج إلى سنوات فقط لكي يظهر في الحواسيب. ونحن البشر سنكون المستفيدين.
فَي- فَي لِي المديرة المشاركة لمبادرة الذكاء الاصطناعي الذي يتمحور حول الإنسان (إتش أيه آي) بجامعة ستانفورد والرئيسة التنفيذية لشركة ويرلد لابس (مختبرات العالم)
عن الإيكونومست