الدرس 07 – مرتكزات الذكاء الاصطناعي - البيانات
الدرس السابع: وجوه البيانات: كيف تصنع تنوّعات المعلومة ملامح الذكاء الاصطناعي البيانات ليست وجهًا واحدًا، بل عالم متعدّد الأشكال، يشبه الوجوه البشرية في تنوعها وملامحها ودلالاتها. حين نسمع كلمة "بيانات"، قد نتخيل جدولًا رقميًا منظمًا أو ملفًا نصيًا بسيطًا، لكن الواقع أوسع من ذلك بكثير. فكل صورة تراها، وكل جملة تُكتب، وكل حركة تسجّلها الأنظمة، هي نوع من البيانات، لكنها تختلف في البنية والمعنى وطريقة المعالجة. إدراك هذا التنوّع هو ما يميز الفهم السطحي للذكاء الاصطناعي عن الفهم العميق له، لأن كل نوع من البيانات يفتح أمام النموذج طريقًا مختلفًا للتعلّم. أحد التقسيمات الأولى في عالم البيانات هو ما يُعرف بالبيانات المهيكلة وغير المهيكلة. البيانات المهيكلة هي البيانات المرتّبة في جداول وأعمدة وأرقام محددة، مثل جداول البنوك التي تحتوي على أسماء العملاء، وأرصدة الحسابات، وتواريخ المعاملات. هذه البيانات واضحة وسهلة المعالجة، لأنها تسير وفق نظام ثابت يمكن للآلة التعامل معه بسهولة عبر قواعد رياضية وإحصائية. على النقيض منها تأتي البيانات غير المهيكلة، وهي النصوص والمقالات والصور ومقاطع الفيديو والتسجيلات الصوتية، أي كل ما لا يمكن وضعه في جدول بسهولة. هذا النوع من البيانات هو الأكثر انتشارًا في عصرنا الرقمي، وهو الذي غذّى النماذج الحديثة مثل GPT، لأن اللغة والصور تحمل المعاني في شكلها الطبيعي غير المنتظم. فبينما تعلّمت الآلات القديمة من الأرقام، تتعلم النماذج الحديثة من الكلمات والأصوات والصور، أي من الواقع بكل تعقيده. لكن التنوع لا يقف عند الشكل، بل يمتد إلى طبيعة المعلومة ذاتها. فهناك بيانات صريحة وأخرى ضمنية. الصريحة هي ما يقوله المستخدم بوضوح: اسمه، عمره، رأيه، أو تقييـمه لتجربة ما. أما البيانات الضمنية فهي ما يُفهم من أفعاله دون أن يقولها مباشرة، مثل المدة التي يقضيها على صفحة، أو نوع المقالات التي يقرأها، أو الأوقات التي يتفاعل فيها. هذا النوع من البيانات هو الأكثر دقة في فهم السلوك الإنساني، لأنه يعكس الأفعال لا الأقوال. فبينما قد يكتب الإنسان تعليقًا إيجابيًا مجاملة، يكشف سلوكه في التصفح عن اهتماماته الحقيقية. لذلك أصبحت البيانات الضمنية منجمًا خفيًا للتعلّم الآلي، فهي تزوّد النماذج برؤية واقعية لكيفية تصرف الناس في العالم الرقمي. ثم تأتي الفئة الثالثة من التصنيف: البيانات المصنّفة وغير المصنّفة. البيانات المصنّفة هي التي أُضيفت إليها تسميات تشرح محتواها، مثل صورة مرفقة بكلمة "قطة" أو "كلب"، أو ملف صوتي مميز بعلامة "موسيقى" أو "كلام". هذه البيانات هي حجر الأساس في التعلّم الموجّه، لأن النموذج يتعلم منها من خلال الربط بين المثال والنتيجة. في المقابل، البيانات غير المصنّفة هي تلك التي لا تحمل أي دلالة جاهزة، فهي خام وغير مفسّرة. التعامل معها يتطلب من النموذج أن يستنتج بنفسه الأنماط والعلاقات، أي أن يمارس شكلًا من أشكال التعلّم الذاتي. في المراحل الأولى من التدريب يحتاج النموذج إلى بيانات مصنّفة، مثل الطفل الذي يتعلم عبر التكرار والتوجيه المباشر، ثم بعد ذلك يستطيع التعامل مع البيانات غير المصنّفة كمتعلمٍ ناضج يكتشف العلاقات بنفسه.