الدرس 04 - مرتكزات الذكاء الاصطناعي - التمثيل
الدرس الرابع: 🧩 التوكنات والتكلفة — ما الذي يحسبه النموذج حقًا؟
حين تصل إلى هذا الدرس تكون قد قطعت شوطًا طويلًا في فهم كيف تتعامل النماذج مع اللغة، وكيف تُحوِّل الكلمات إلى معانٍ، والمعاني إلى مواقع داخل فضائها الرقمي. لكنك ما إن تتعمق خطوة أخرى حتى يظهر سؤال أكثر دقة: ما الذي يقرؤه النموذج بالفعل؟ وما الوحدة التي يبدأ منها الفهم داخل هذا العالم الحسابي؟ فعلى الرغم من أننا نكتب الكلمات كاملة، إلا أن النموذج لا يقرأها بهذه الصورة، ولا يتعامل معها كما نراها على الورق.
فالآلة لا ترى الكلمة بوصفها كلمة، بل تفككها إلى وحدات صغيرة تُسمّى «التوكنات». هذه التوكنات هي أقرب ما تكون إلى قطع صغيرة من النص، قد تكون كلمة كاملة في بعض الأحيان، وقد تكون نصف كلمة أو جزءًا من مقطع، وأحيانًا لا تتجاوز حرفًا واحدًا. إنها ليست كلمات، بل وحدات تُقسم بها الآلة النص إلى أجزاء قابلة للفهم والمعالجة.
وإذا تساءلتَ: لماذا لا تستخدم الآلة الكلمات بصورتها الطبيعية؟ فالإجابة أن الكلمات تختلف من لغة إلى أخرى في طولها وتعقيدها. العربية مثلًا كلمة واحدة فيها قد تحمل بدايات ونهايات وزوائد تجعلها طويلة ومعقدة، بينما الإنجليزية أبسط وأكثر اختصارًا. التقسيم إلى توكنات صغيرة يمنح النموذج مرونة أكبر، ويجعله قادرًا على فهم اللغة من داخلها، دون الحاجة إلى تخزين ملايين الكلمات المختلفة. فالآلة لا تعتمد على شكل الكلمة، بل على الأجزاء التي تكوّنها، كما يدخل البنّاء إلى تفاصيل الحجر بدل النظر إلى شكل الجدار.
بعد أن تُجزّأ الجملة إلى توكنات، تبدأ خطوة جديدة: تتحول كل قطعة صغيرة إلى «صفة رقمية» — بطاقة تصف موقعها داخل النظام الرقمي. هذه البطاقات ليست معاني كاملة، لكنها اللبنات الأولى التي يبدأ النموذج منها رحلته نحو الفهم. وحين تتجمّع هذه الصفات جنبًا إلى جنب، تبدأ الآلة بتكوين صورة مبدئية للنص، ثم تنتقل إلى مرحلة أعمق، حيث تعالج المعاني من خلال علاقات هذه الأجزاء بعضها ببعض.
ومع أن فكرة التوكنات تبدو تقنية، إلا أن لها أثرًا مباشرًا على كل تفاعل بينك وبين النموذج. فكل توكن تستخدمه له تكلفة، وكل توكن يولّده النموذج له تكلفة أيضًا. ولهذا لا تُقاس أسعار النماذج بالكلمات، بل بالتوكنات، لأنها الوحدة الفعلية التي تُنفَّذ عليها العمليات داخل النظام. يمكنك أن تتخيل التوكن كما تتخيل وحدات المياه أو الكهرباء: لا يهم حجم البيت، بل كمية الاستهلاك. كذلك هنا: لا تُقاس الفاتورة بطول النص، بل بعدد التوكنات التي مرت عبر النموذج.
وللنماذج سعات محددة من التوكنات تُسمّى «نافذة السياق»، وهي أشبه بذاكرة قصيرة المدى يستخدمها النموذج لاستيعاب النص الذي تعطيه إياه، ثم توليد الرد داخله. فإذا كانت السعة مثلًا (128) ألف توكن، فمن الحكمة أن تترك جزءًا منها للنموذج كي يجيبك. فلا يُمكن إدخال النص كاملًا دون أن تترك مجالًا للرد، وإلا ضاق الفضاء الحسابي، وتعذر على النموذج إكمال المسار.
ولهذا السبب ظهرت فكرة «إدارة التوكنات»، وهي المهارة التي تجعل التعامل مع النماذج أكثر كفاءة وأقل تكلفة. فالنصوص الطويلة تُقسّم إلى مقاطع، والأسئلة تُختصر قدر الإمكان، والملفات الكبيرة تُنقل بطريقة تمنح النموذج مساحة للتفكير والرد. ومع أن هذه القواعد تبدو بسيطة، إلا أنها تمنع كثيرًا من الأخطاء، وتوفّر الوقت والمال، وتزيد من فعالية الاستفادة من كل جلسة.
يمكن أيضًا تبسيط الفكرة بمثال بسيط. تخيّل أنك تدخل إلى مكتب صغير يحمل عددًا محددًا من الملفات. إذا ملأته حتى آخر رفٍّ بملفاتك الخاصة، فلن تجد مساحة يضع الموظف فيها رده أو معاملته المكملة. هكذا يفعل النموذج: يحتاج إلى مساحة فارغة كي يُكمل لك العمل، وإذا أخذت كل السعة بالنصوص الداخلة، فلن يجد مكانًا للرد، مهما كانت قدرته على الفهم كبيرة.
ومع أن هذه التوكنات لا تُرى بالعين، فإنها تحدد كل خطوة في طريق الفهم داخل النموذج. فكل بناء لغوي، وكل تحليل، وكل نتيجة — مهما بدت معقدة — تبدأ من هذه الوحدة الصغيرة. ومن يفهم هذه البنية يستطع أن يتعامل مع النماذج بثقة أكبر، فيعرف كيف يسأل، وكيف يختصر، وكيف يستخدم السعة المتاحة دون إفراط أو ضيق.
وهكذا نصل إلى أن التوكن ليس مجرد جزء صغير من النص، بل هو الحجر الأول الذي تُبنى عليه الجملة داخل عقل النموذج، وهو المعيار الذي يُحسب به الاستهلاك، وهو المفتاح الذي يحدد قدرة النموذج على العمل والاستجابة. ومن يضبط التعامل مع التوكنات، يضبط سرعة الفهم، وجودة الرد، وتكلفة كل تفاعل.
مركز علوم الدولي (د. عبد الرحمن الزراعي)
_________
يُمكّنك موقع توكنايز من فهم الطريقة التي يُحلَّل بها النص إلى وحدات صغيرة تسمّى توكنات، وهي الوحدات الأساسية التي يتعامل معها نموذج الذكاء الاصطناعي عند القراءة والمعالجة. ويتيح لك الموقع حساب عدد التوكنات بدقة لأي نص تكتبه، وهو أمر ضروري لأن تكلفة استخدام النماذج وسعة السياق تعتمد مباشرة على عدد هذه التوكنات. ويُساعدك ذلك في تقدير طول النصوص المناسبة، وضبط حجم المدخلات، وإدارة التكلفة، وفهم كيفية تفسير النموذج للنص وتجزئته قبل معالجته.
رابط الموقع:
_________
هل استوعبت الدرس
نعم بشكل ممتاز
نعم بشكل جيد
نعم بشكل مقبول
3 votes
6:07
5:07
4
5 comments
Abdulrahman Alzarraei
6
الدرس 04 - مرتكزات الذكاء الاصطناعي - التمثيل
powered by
تطوير النماذج العربية الذكية
انضمّ إلى أكاديمية علوم الدولية للذكاء الاصطناعي لإنشاء مشاريع ربحية قابلة للتنفيذ خلال أيام، ودون الحاجة إلى أية خبرة تقنية أو تكلفة تشغيلية
Build your own community
Bring people together around your passion and get paid.
Powered by