الدرس 07 – مرتكزات الذكاء الاصطناعي - البيانات
الدرس السابع: وجوه البيانات: كيف تصنع تنوّعات المعلومة ملامح الذكاء الاصطناعي
البيانات ليست وجهًا واحدًا، بل عالم متعدّد الأشكال، يشبه الوجوه البشرية في تنوعها وملامحها ودلالاتها. حين نسمع كلمة "بيانات"، قد نتخيل جدولًا رقميًا منظمًا أو ملفًا نصيًا بسيطًا، لكن الواقع أوسع من ذلك بكثير. فكل صورة تراها، وكل جملة تُكتب، وكل حركة تسجّلها الأنظمة، هي نوع من البيانات، لكنها تختلف في البنية والمعنى وطريقة المعالجة. إدراك هذا التنوّع هو ما يميز الفهم السطحي للذكاء الاصطناعي عن الفهم العميق له، لأن كل نوع من البيانات يفتح أمام النموذج طريقًا مختلفًا للتعلّم.
أحد التقسيمات الأولى في عالم البيانات هو ما يُعرف بالبيانات المهيكلة وغير المهيكلة. البيانات المهيكلة هي البيانات المرتّبة في جداول وأعمدة وأرقام محددة، مثل جداول البنوك التي تحتوي على أسماء العملاء، وأرصدة الحسابات، وتواريخ المعاملات. هذه البيانات واضحة وسهلة المعالجة، لأنها تسير وفق نظام ثابت يمكن للآلة التعامل معه بسهولة عبر قواعد رياضية وإحصائية. على النقيض منها تأتي البيانات غير المهيكلة، وهي النصوص والمقالات والصور ومقاطع الفيديو والتسجيلات الصوتية، أي كل ما لا يمكن وضعه في جدول بسهولة. هذا النوع من البيانات هو الأكثر انتشارًا في عصرنا الرقمي، وهو الذي غذّى النماذج الحديثة مثل GPT، لأن اللغة والصور تحمل المعاني في شكلها الطبيعي غير المنتظم. فبينما تعلّمت الآلات القديمة من الأرقام، تتعلم النماذج الحديثة من الكلمات والأصوات والصور، أي من الواقع بكل تعقيده.
لكن التنوع لا يقف عند الشكل، بل يمتد إلى طبيعة المعلومة ذاتها. فهناك بيانات صريحة وأخرى ضمنية. الصريحة هي ما يقوله المستخدم بوضوح: اسمه، عمره، رأيه، أو تقييـمه لتجربة ما. أما البيانات الضمنية فهي ما يُفهم من أفعاله دون أن يقولها مباشرة، مثل المدة التي يقضيها على صفحة، أو نوع المقالات التي يقرأها، أو الأوقات التي يتفاعل فيها. هذا النوع من البيانات هو الأكثر دقة في فهم السلوك الإنساني، لأنه يعكس الأفعال لا الأقوال. فبينما قد يكتب الإنسان تعليقًا إيجابيًا مجاملة، يكشف سلوكه في التصفح عن اهتماماته الحقيقية. لذلك أصبحت البيانات الضمنية منجمًا خفيًا للتعلّم الآلي، فهي تزوّد النماذج برؤية واقعية لكيفية تصرف الناس في العالم الرقمي.
ثم تأتي الفئة الثالثة من التصنيف: البيانات المصنّفة وغير المصنّفة. البيانات المصنّفة هي التي أُضيفت إليها تسميات تشرح محتواها، مثل صورة مرفقة بكلمة "قطة" أو "كلب"، أو ملف صوتي مميز بعلامة "موسيقى" أو "كلام". هذه البيانات هي حجر الأساس في التعلّم الموجّه، لأن النموذج يتعلم منها من خلال الربط بين المثال والنتيجة. في المقابل، البيانات غير المصنّفة هي تلك التي لا تحمل أي دلالة جاهزة، فهي خام وغير مفسّرة. التعامل معها يتطلب من النموذج أن يستنتج بنفسه الأنماط والعلاقات، أي أن يمارس شكلًا من أشكال التعلّم الذاتي. في المراحل الأولى من التدريب يحتاج النموذج إلى بيانات مصنّفة، مثل الطفل الذي يتعلم عبر التكرار والتوجيه المباشر، ثم بعد ذلك يستطيع التعامل مع البيانات غير المصنّفة كمتعلمٍ ناضج يكتشف العلاقات بنفسه.
هذه الفروق بين أنواع البيانات ليست مجرد تفاصيل تقنية، بل مفاتيح لفهم كيف يتطوّر الذكاء الاصطناعي. فالبيانات المهيكلة تمنحه الدقة الحسابية، وغير المهيكلة تمنحه المرونة اللغوية والبصرية، والصريحة تمنحه القدرة على تفسير اللغة المباشرة، والضمنية تعلّمه قراءة ما بين السطور، والمصنّفة تُعلّمه الأساسيات، وغير المصنّفة تفتح له أبواب الاستكشاف. ومن اجتماع هذه الأنواع كلها يتشكّل الذكاء الحقيقي الذي يجمع بين النظام والخيال، وبين الحساب والفهم.
لكن هذا التنوع يحمل في طياته تحديًا آخر، إذ إن كل وجه من وجوه البيانات يحتاج إلى معالجة مختلفة. فالبيانات المهيكلة تحتاج إلى قواعد صارمة لتنظيمها وتحليلها، بينما البيانات غير المهيكلة تحتاج إلى خوارزميات قادرة على التقاط الأنماط المعنوية بين الكلمات أو الأشكال. أما البيانات الضمنية فتحتاج إلى وعي أخلاقي أكبر لأنها تتعلق بالسلوك الشخصي والتفضيلات الفردية، مما يجعلها منطقة حساسة تتطلب حذرًا في الجمع والاستخدام. من هنا يتضح أن التعامل مع البيانات ليس مجرد مسألة تقنية، بل أيضًا مسألة معرفية وأخلاقية، لأن طريقة جمعها وتحليلها قد تحدد مدى حيادية الذكاء الاصطناعي أو انحيازه.
البيانات إذًا ليست وجهًا واحدًا يُرى من زاوية واحدة، بل هي مثل المرايا التي تُظهر العقل الاصطناعي في صور عدّة. وكلما فهم الإنسان تنوّعها، فهم كيف تتشكّل أنماط الذكاء داخل الآلة. فالنموذج الذي يتعلّم من بيانات منظمة فقط سيكون دقيقًا لكنه محدود الخيال، والذي يتعلّم من بيانات غير منظمة سيكون واسعًا لكنه أكثر عرضة للفوضى. وبين الاثنين تتحدد هوية النموذج ومقدار نضجه. إن وعي المبرمج بطبيعة البيانات التي يقدّمها هو ما يجعل من النموذج كائنًا رقميًا قادرًا على التفكير بعمق وتسلسل.
من إعداد: مركز علوم الدولي للذكاء الاصطناعي (د. عبدالرحمن الزراعي)
6:20
23
11 comments
Abdulrahman Alzarraei
6
الدرس 07 – مرتكزات الذكاء الاصطناعي - البيانات
powered by
تطوير النماذج العربية الذكية
انضمّ إلى أكاديمية علوم الدولية للذكاء الاصطناعي لإنشاء مشاريع ربحية قابلة للتنفيذ خلال أيام، ودون الحاجة إلى أية خبرة تقنية أو تكلفة تشغيلية
Build your own community
Bring people together around your passion and get paid.
Powered by