الجزيرة.نت - 12/3/2025 7:34:18 PM - GMT (+3 )
أثناء انعقاد فعاليات مؤتمر "إم دبليو سي" (MWC)، توافد الزوار على جناح شركة غوغل للحديث عن آخر منتجات الشركة، وكان للجزيرة فرصة للقاء والحديث إلى المدير الإقليمي لغوغل كلاود في الشرق الأوسط وشمال أفريقيا غسّان كوستا عن آخر منتجات الذكاء الاصطناعي من غوغل جيميناي 3.0 (3.0 Gemini).
وقد سألته الجزيرة عن جيميناي 3.0 والإشادات التي حصل عليها أخيرا، سواء من الخبراء أم المستخدمين، وهل توصلت غوغل للسر الذي يجعلها ترجع مرة أخرى إلى سباق الذكاء الاصطناعي؟
كوستا تحدث للجزيرة بصراحة ومطولا عن مفهوم بناء "منظومة الذكاء الاصطناعي" التي عملت عليها غوغل طوال هذه السنوات وتاليا تفاصيل الحوار.
في البداية يقول كوستا: "إن جيميناي ليس طفرة من فراغ بل هو من عمل يعود إلى 27 عاما جُمع في منظومة كاملة وليس مجرد نموذج جديد للذكاء الاصطناعي".
يضيف كوستا: "قوة جيميناي لا تأتي من النموذج، وليست وليدة اللحظة… بل هو نتاج عمل غوغل طوال هذه الفترة على سلسلة كاملة لمنظومة الذكاء الاصطناعي".
وحتى نفهم ما يعنيه كوستا علينا أن نعود قليلا للماضي.
الإخفاق كان الطريق لهذا النجاحالطريق إلى جيميناي 3.0 لم يكن ممهدا أمام غوغل؛ بل جاء بسلسلة من العثرات التي هزّت صورة الشركة لوهلة، فإطلاق بارد (Bard) المتعثر عام 2023 كشف عن نموذج غير جاهز، مليء بالأخطاء، وأدى إلى خسائر ضخمة في القيمة السوقية لغوغل.
ثم ظهر بعدها حديث عن انقسام داخلي بين الفرق التي تعمل على نماذج الذكاء الاصطناعي مما أعطى مؤشرا على غياب رؤية موحّدة داخل واحدة من أكبر شركات الذكاء الاصطناعي في العالم.
حتى النسخة الأولى من جيميناي لم ترتقِ إلى مستوى منافسة (جي بي تي-4) (GPT-4) حينها، مما دفع محللين للقول، إن غوغل "فقدت القيادة في عالم الذكاء الاصطناعي".
من الشريحة إلى السحابةكوستا يرى أن هناك عوامل يجب النظر إليها عندما نتكلم عن أي منظومة قوية للذكاء الاصطناعي: "أنا هنا لا أتحدث عن النموذج فقط، مثل (جيميناي 3) بل عن منظومة متكاملة تبدأ من العتاد التقني والبنية التحتية وتنتهى بنموذج الذكاء الاصطناعي وما بينهما من طبقات مثل المعلومات والبيانات".
إعلان
ولكي نفهم ما يعنيه هذا يجب، أن نقسم المنظومة إلى خمس طبقات بحسب كوستا تبدأ من:
الطبقة الأولى: الشريحة (جي بي يو) أم (تي بي يو)؟في عالم الذكاء الاصطناعي، تختلف غوغل عن بقية اللاعبين، ليس فقط بالنماذج التي تطورها، بل بالعتاد الذي تُدرّب عليه هذه النماذج. فبينما تعتمد معظم الشركات على معالجات الرسوميات (GPUs) من إنفيديا (NVIDIA)، بنت غوغل طريقًا خاصًا بها عبر شرائح (تي بي يو) (TPU-Tensor Processing Units)، وهي معالجات مصمّمة خصيصًا لعمليات الذكاء الاصطناعي ولا شيء غيرها.
تتميّز (تي بي يو) بأنها معالجات موجهة بالكامل للعمليات الرياضية الضخمة التي تقوم عليها الشبكات العصبية، مثل ضرب المصفوفات، ما يمنحها قدرة هائلة على تسريع التدريب والتشغيل بفعالية أعلى من بطاقات الرسوميات التقليدية. والأهم من ذلك:
غوغل تبنيها بنفسها… وتتحكم بكل ذرة داخلها.
في الجيل السادس الأخير المعروف باسم (تي بي يو تريليم) (TPU Trillium)، وصلت القدرة الحسابية إلى مستوى يتيح تدريب نماذج بحجم عشرات المليارات من المعاملات بوقت أقصر واستهلاك طاقة أقل، وهو ما شكّل الأساس الذي بُني عليه جيميناي 3.0.
وبحسب كوستا فإن غوغل بدلا من (زن) تعتمد على طرف ثالث مثل إنفيديا لتزويدها بالشرائح المتطورة، استطاعت مواءمة العتاد مع البرمجيات ومع البيانات ضمن منظومة فائقة التكامل من الشريحة إلى السحابة.
لهذا السبب وصف خبراء الصناعة في مقال لموقع سي إن بي سي الـ"تي بي يو" بأنها "السلاح السري" لغوغل الذي تريد به أن تتفوق في سباق الذكاء الاصطناعي على منافسيها.
فهي ليست مجرد قطعة سيليكون، بل منصة متكاملة تُترجم رؤية الشركة بأن الذكاء الاصطناعي ليس نموذجًا فقط… بل بنية تحتية كاملة تبدأ من العتاد نفسه.
وراء القدرات المبهرة لجيميناي 3، يقول كوستا تقف طبقة قد لا يراها المستخدم مباشرة، لكنها ربما أهم ما تملكه غوغل اليوم: طبقة السحابة. ففي حين تعتمد معظم نماذج الذكاء الاصطناعي على بنى تحتية مستضافة لدى أطراف ثالثة أو موزعة عبر مراكز بيانات مشتركة، يمتاز جيميناي بأنه يعيش ويُدرّب ويُشغَّل فوق منظومة سحابية تبنيها غوغل من الصفر وتتحكم في كل خيط فيها.
ويضيف كوستا أن هذه الطبقة تمتد من مراكز البيانات فائقة الكفاءة إلى شبكات الألياف البصرية، وصولًا إلى الكوابل البحرية التي تنقل جزءًا كبيرًا من حركة الإنترنت في العالم، وكلها مملوكة لغوغل أو تُدار عبر شراكات تضعها في قلب البنية الرقمية العالمية.
وهذا بالنسبة لكوستا بيئة مثالية لتدريب النماذج بحجم جيميناي، دون مواجهة حالات اكتظاظ في حركة البيانات، ودون الاعتماد على طرف آخر كما هو الحال في نماذج الشركات الأخرى.
ففي نموذج بحجم ملايين الرموز السياقية، لا يكفي وجود معالج سريع؛ المطلوب منظومة قادرة على نقل البيانات بسرعة هائلة، وتوزيعها على آلاف الشرائح، ومزامنة التدريب عبر مئات الآلاف من العقد الشبكية. وهنا تحديدًا تتفوق غوغل بامتلاكها:
- بنية سحابية مصممة خصيصًا للذكاء الاصطناعي
- تكامل تام بين مكونات، مثل فيرتكس إيه آي (Vertex AI) سحابة غوغل (Google Cloud) تي بي يو (TPU).
- وتيرة نقل بيانات وزمن استجابة يصعب على المنافسين تحقيقه دون امتلاك البنية نفسها.
إعلان
لهذا يصف خبراء الصناعة سحابة غوغل بأنها "الطبقة الصامتة" التي تمكّن جيميناي من تحقيق أداء لا تقدر عليه النماذج الأخرى. فهي ليست مجرد مساحة تخزين أو قوة حوسبة… بل نظام عصبي كامل يسمح للنموذج أن يتنفس ويتعلم ويتوسع بلا حدود.
الطبقة الثالثة: سلسلة الذكاء الاصطناعي… الهيكل الذي يجمع المنظومةإذا كانت شرائح (تي بي يو) تمثل العضلات، والسحابة هي الهيكل العظمي، فإن الطبقة الثالثة سلسلة الذكاء الاصطناعي (AI Stack) هو الهيكل الذي يصل المكونات المختلفة من منظومة غوغل للذكاء الاصطناعي. وهي الطبقة التي شدّد عليها غسّان كوستا في حديثه، حين قال، إن ما يميز غوغل ليس النموذج فحسب، بل المحرّك الداخلي الذي تُبنى عليه جميع النماذج.
ففي الوقت الذي تعتمد فيه معظم الشركات على أدوات مفتوحة أو أنظمة خارجية لبناء نماذجها، تمتلك غوغل سلسلة برمجية كاملة من الأطر والأدوات والأنظمة الوسيطة، مملوكة لها بالكامل ومصممة لضبط أدق التفاصيل:
من كيفية تجميع البيانات، إلى إدارة التدريب، إلى جدولة المصفوفات، وصولًا إلى تنسيق التعامل بين الشرائح والسحابة.
مِم تتكوّن سلسلة الذكاء الاصطناعي لدى غوغل؟
1- أطر التعلم العميق:
غوغل تعتمد على تنسر فلو (TensorFlow) الذي طورته بنفسها، وبهذا لا تتعامل مع نموذج جاهز، بل مع إطار تُعيد تشكيله ليلائم عتادها وسحاباتها.
2- الأدوات الهندسية والأنظمة الوسيطة:
منظومات مثل باثوايز (XLA، Pathways، وVertex AI تتيح لغوغل التحكم الكامل في كل خطوة داخل نموذج الذكاء الاصطناعي -من التحويلات الحسابية إلى توزيع العمل بين شرائح تي بي يو.
3- طبقة التفاعل بين العتاد والبرمجيات:
هنا يكمن السحر الذي لا يمتلكه المنافسون، فالبرمجيات تُبنى خصيصًا لتلائم الشريحة، والشريحة تُصمّم خصيصًا لتلائم البرمجيات.
هذه المعادلة هي التي جعلت جيميناي قادرًا على التعامل مع سياقات مليونَي رمز بكفاءة غير مسبوقة.
4- تكامل الأصول: (السحابة، السلسلة، النموذج)
هذا التكامل العميق -الذي يعمل كجسد واحد- يمنح غوغل قدرة على تجريب بنى جديدة بسرعة، وتدريب نماذج عملاقة خلال أسابيع بدل أشهر، وتحقيق أداء لا تصل إليه الشركات التي تجمع مكونات من مصادر متعددة.. النتيجة؟
لغة داخلية يفكر بها جيميناي والإطار الذي يجعله قادرًا على فهم الصور، الفيديو، الصوت، النص، والكود في قناة واحدة.
إنها الطبقة التي تجعل النموذج ليس قويًا فحسب، بل متماسكًا ومتناسقًا وقادرًا على النمو المستمر دون أن ينهار تحت ثقل المهام.
وفي هذا الشأن يقول غسان كوستا : "كل طبقة في منظومة غوغل مملوكة لنا… ولهذا يمكننا تحسين النموذج من القاعدة حتى القمة".
الطبقة الرابعة: البيانات… الوقود الذي لا يملكه أحد، "نانو بنانا" الدليلمن بين كل طبقات قوة غوغل في الذكاء الاصطناعي، تبقى طبقة البيانات هي الأقرب لوصف "السر غير القابل للاستنساخ". فبينما تعتمد الشركات الأخرى على مجموعات بيانات مرخّصة أو قواعد عامة، تبني غوغل نماذجها فوق منظومة بيانات تُعد الأكبر والأغنى والأكثر تنوعًا في التاريخ الرقمي:
من محرك البحث، إلى يوتيوب، إلى الخرائط، إلى البريد، إلى ملايين التطبيقات عبر نظام أندرويد.
لكن اللحظة التي كشفت حجم هذا التفوق بوضوح كانت بحسب كوستا عند إطلاق نموذج نانو بانانا (Nano Banana).
إذ أوضح أن النسخة التي طُرحت في المتاجر خلال أقل من يوم واحد، استطاعت التعامل فورًا مع عشرات التطبيقات، والصور، والمهام، دون الحاجة لإعادة تدريب كبيرة أو ضبط معقد. والسبب؟
تنوّع غير مسبوق في البيانات التي تدرب عليها النموذج.
غسّان قالها بوضوح: "لم يكن الناس يدركون أن نانو بنانا نجح بهذه السرعة لأن نموذجنا تدرب على بيانات متعددة الوسائط تغطي ما يفعله المستخدمون فعلًا في حياتهم اليومية".
إعلان
ما المختلف في بيانات غوغل الذي جعل نموذج نانو بنانا بهذه القوة؟
بحسب عدة مواقع منها موقع "غوغل جيميناي" فإن هذه الخصائص في بيانات غوغل تجعلها الأفضل لتدريب نماذج الذكاء الاصطناعي:
- غنى وتعدد الوسائط بطبيعتها: نصوص، فيديو، صور، صوت، خرائط، أكواد… كلّها تتدفق عبر منصات غوغل يوميًا.
- ممثّلة للعالم الواقعي: بيانات ناتجة عن مليارات المستخدمين، لا عن مجموعات مكررة أو مصطنعة.
- متسقة ومترابطة: يمكن للنموذج ربط صورة من غوغل فوتوز (Google Photos) بسياق من بحث غوغل (Google Search) أو نص من (جيميل) (Gmail) أو موقع من خرائط غوغل (Google Maps).
- مُهيأة أصلًا للتدريب: لأن الأنظمة التي تجمعها (بحث، يوتيوب، أندرويد) صُممت من البداية لتكون قابلة للفهرسة والتحليل.
- بيانات تتبنى الفهم الحقيقي وليس الحفظ.
هذا التنوع الهائل هو ما سمح لنسخة صغيرة جدًا مثل نانو بأن تعمل بكفاءة منذ يومها الأول دون استعداد خاص لأن النموذج "انغمس" في بيئة تشبه تمامًا البيئة التي سيعمل فيها لاحقًا.
وهو ما يفسّر أيضًا سبب فهم جيميناي للصور والفيديو والصوت والكود في آن واحد؛ النموذج لم يتعلم من كل نوع على حدة، بل تعلمها وهي مجتمعة كما تحدث في الواقع.
ميزة لا تشترى
يرى كوستا أن المنافسين ربما يستطيعون شراء آلاف جي بي يوز (GPUs)، و بناء سحابة قوية، لكن لا أحد يستطيع شراء تاريخ البيانات الذي تملكه غوغل لأنه نتاج 20 عامًا من بناء أدوات يستخدمها العالم كل يوم.
ولهذا كانت "نانو بنانا" أكثر من مجرد إطلاق كانت برهانًا على أن قوة البيانات ليست نظرية، بل ميزة عملية تمنح غوغل تقدّمًا ملموسًا لا يمكن اللحاق به بسهولة بحسب كوستا.
الطبقة الخامسة: النموذج نفسه-عقل متعدد الحواس بني ليفكّر لا ليجيبإذا كانت الطبقات السابقة من العتاد والسحابة وسلسلة الذكاء الاصطناعي والبيانات تمثّل العضلات والعظام والهيكل التي يبنى عليها النظام، فإن النموذج نفسه هو العقل الذي يجمع كل ذلك ويحوّله إلى قدرة حقيقية على الفهم والتحليل والاستدلال.
وفي حالة جيميناي 3، بحسب كوستا لم تبنِ غوغل مجرد نموذج لغوي جديد، بل صممت عقلاً متعدد الحواس قادرًا على رؤية العالم وسماعه وقراءته وتحليل برمجياته في وقت واحد وبذلك جمعت عدة ميزات بحسب غوغل:
- نموذج متعدد الوسائط منذ التأسيس
خلافًا لنماذج أخرى تعتمد على ترابط بين نماذج منفصلة نص صورة + صوت)، صُمّم جيميناي كنموذج متعدد بطبيعته (Native Multimodal)، أي أن فهمه للصور والنصوص والصوت والفيديو يحدث داخل طبقات مشتركة وبنية واحدة.
وهذا يفسّر قدرته على تحليل مخططات تجمع نصًا ورسمًا في لحظة واحدة وفهم مقطع فيديو عبر الصوت والإطارات البصرية والسياق النصي وتحليل مستودع برمجي كامل مع لقطات شاشة وتقديم استدلال متسق لأن كل الوسائط تُعالج في "عقل واحد" لا عدة نماذج، وهذه نقطة محورية في تفرّده كما أكّد باحثو غوغل ديب مايند (Google DeepMind) في بحث سابق لهم.
- بنية معمارية متقدمة
بحسب موقع مارك تيك بوست (marktechpost) فقد اعتمدت غوغل في جيميناي 3 على معمارية خاصة تعرف بـ"سبير مكستشر أوف إكسبرتس" Sparse Mixture-of-Experts (MoE)، وهي تقنية تتيح للنموذج تنشيط "الأجزاء المناسبة" فقط داخل الشبكة بدل تشغيل كامل النموذج مع كل مهمة.
وكانت النتيجة أداء أعلى وسرعة أكبر مع كفاءة طاقة وحوسبة غير مسبوقة وقدرة على تشغيل نموذج بحجم هائل دون زيادة مضاعفة في التكلفة.
هذه البنية سمحت للنموذج بالعمل على ملايين الرموز السياقية دون أن ينهار أو تتضاعف التكلفة بحسب الموقع.
- نوافذ سياقية بملايين الرموز… ذاكرة شبه غير متناهية
واحدة من أكثر نقاط القوة التي ميّزت جيميناي 3 هي قدرته على التعامل مع سياقات تصل إلى 1-2 مليون رمز رسميا، و10 ملايين رمز في الاختبارات، بحسب عدة مواقع، منها تيك بوست وسنتي سايت (sentisight).
وهذا يعادل القدرة على تحليل 50 ألف سطر برمجي دفعة واحدة ومئات الصفحات من الوثائق وملفات بي دي إف (PDF) الضخمة وحلقات بودكاست، كود، صور، وفيديو في نفس الجلسة.
هذه القدرة بحسب الخبراء ليست "ترفًا تقنيًا"، بل تغير جذري في طريقة استخدام الذكاء الاصطناعي في الصحافة، البرمجة، الصحة، القانون، والبحث العلمي.
- تفوّق في اختبارات العالم الحقيقي… لا في المختبر فقط
يقول كوستا إن الاختبارات أظهرت قوة جيميناي 3 برو، خصوصا في نتائج إل إم أرينا (LM Arena) في نوفمبر/تشرين الثاني الماضي، حيث حقق درجة تاريخية، وهي 1501 ELO عند الإطلاق، متفوقاً على غروك 4.1 (Grok 4.1)، وجي بي تي -5.1 (GPT-5.1)، وكلود 4.5 (Claude 4.5) في معظم الفئات الرئيسية.
ولتفصيل هذا الاختبار وأهميته، علينا بداية تعريف "إل إم أرينا وأهمية تصنيفه؟
إعلان
إل إم أرينا، هي موقع يصنّف نماذج الذكاء الاصطناعي مثل جيميناي جي بي تي بنظام إلو (Elo) (وهو نفس تصنيف الشطرنج)، حيث يقارن المستخدمون إجابتين مجهولتين ويصوّتون للأفضل، فترتفع نقاط النموذج الفائز وتنخفض الخاسرة.
باختصار: يضعك الموقع في "معركة" بين نموذجين، تصوّت، وترى اللوحة تتحدّث يومياً بناءً على ملايين الأصوات، وهو يعتبر أدق من الاختبارات التقليدية لأنها تعكس رأي الناس الحقيقي.
تعتبر اختبارات الأداء دليلا عمليا على قدرات نماذج الذكاء الاصطناعي على حل مشكلات معقّدة في البرمجة، البحث العلمي، والرياضيات وهي ليست إحصاءات عشوائية.
الآن بالعودة إلى نتائج إل إم أرينا نرى تفوقا واضحا لجيميناي 3.0، فقد تفوق في الاستدلال العلمي بمستوى الدكتوراه وفي تحليل الأكواد وتطوير الويب حصل على المركز الأول بين مختلف النماذج، أما الرياضيات فكان الأول في هذه الفئة.
عندما اكتملت الطبقات… تفوق جيميناي 3.0يختتم كوستا الحديث عن رحلة جيميناي 3.0 في الوصول إلى هذا المكان بين النماذج المختلفة وتفوقه بأن هذا النجاح جاء من رؤية واضحة كان لا بد أن تستكمل قبل أن يظهر جيميناي 3.0.
غوغل كما يشير كوستا لم تكن تبني نموذج ذكاء اصطناعي، بل نظام بيئي كامل امتد خمس طبقات مترابطة من شريحة مملوكة لها إلى سحابة عملاقة وسلسلة أطر وبرمجيات للذكاء الاصطناعي داخلية مرورا ببيانات ضخمة لا مثيل لها لكي تنتهي بنموذج متعدد الوسائط قادر على التفكير عبر ملايين الرموز وهو جيميناي 3.0.
إقرأ المزيد


