علم البيانات في التسويق — مع يحيى الشاطر

كيف تفهم عملائك باستخدام البيانات؟ جلسة عميقة مع Applied Scientist يحيى الشاطر

0:00/1:34

Data Science in Marketing

الفيديو بيتكلم عن تطبيق علم البيانات في التسويق، وازاي نحول بيانات العملاء لمقاطع (Segments) مفيدة باستخدام K-Means وبعدين نستخدم قواعد بيانات المتجهات عشان نفعل الشغل ده جوه المنتجات الحقيقية.

إيه هو Marketing Data Science؟

تعريف مجال علم البيانات في التسويق، وإيه أهدافه الأساسية زي تعظيم العائد من ميزانية التسويق المحدودة، وتقليل الـ wasted spend، وزيادة الـ ROI بدل ما نصرف “عمياني”.
شرح لأنواع البيانات اللي بنستخدمها: بيانات أولية من الشركة نفسها (Transactions, Profiles)، وبيانات مشتركة بين شركتين، وبيانات من طرف ثالث زي Panels أو بيانات مشتراة، مع التأكيد على الخصوصية وإخفاء هوية العميل.
ربط ده بمفهوم الـ Marketing Funnel (Awareness, Consideration, Purchase, Loyalty, Advocacy) وإزاي البيانات بتساعدنا نحرّك العميل جوه الـ funnel ونقيس الاحتفاظ والعائد.

التجميع العنقودي K-Means على عملاء الريتيل

الهدف إننا نقسم العملاء لمجموعات منطقية؛ مثلاً عملاء بيشتروا في الويك إند، عملاء Back-to-School، عملاء جملة بسلة كبيرة، أو عملاء بيرجعوا منتجات كتير.
Pipeline عملي: نشتغل على بيانات فواتير (Invoice, Product, Quantity, Price, Date)، نجمّعها على مستوى العميل ونستخرج Features زي إجمالي الصرف الشهري، عدد مرات الشراء، نسبة مشتريات الويك إند، ونسبة الـ Returns؛ كل عميل يتحول لـ Vector رقمي.
قبل K-Means بنعمل Feature Scaling (Min‑Max) عشان كل Feature يبقى بين 0 و1 ومايبقاش في Feature بقيم كبيرة مسيطر على الـ Distance.
شرح بديهي لـ K-Means: بنبدأ Centroids عشوائية، نخصص كل عميل لأقرب Centroid، نحدّث الـ Centroids كمتوسط للنقاط اللي جواها، ونكرر لحد ما الكلسترز تثبت، مع ذكر الـ Elbow Method لاختيار عدد الكلسترز المناسب.
بعد كده بنبص على حجم كل Cluster وتوزيع الـ Features جواها عشان نفهم كل Segment وازاي نخدمه (مثلاً: نكافئ العملاء عاليي القيمة وقليلين الـ Returns، وندرس أو نقيّد العملاء اللي بيرجعوا منتجات كتير).

الجزء التقني (بايثون ونوتبوك)

الديمو معمولة بـ Jupyter Notebook باستخدام Python وpandas وScikit‑Learn لـ Scaling وK-Means، وبـ t‑SNE عشان نرسم العملاء في 2D ونشوف الفصل بين الكلسترز.
خطوات التنضيف: التعامل مع الـ Missing Values، تحويل Customer IDs لصيغة موحدة، عمل نسخة محفوظة من الـ Raw Data، ومتابعة عدد الصفوف والأعمدة بعد كل خطوة.
بناء Function واحدة تاخد معاملات عميل واحد وترجع Vector ثابت الطول فيه مثلاً Revenue كلي، متوسط حجم السلة، نسبة الويك إند، ونسبة الـ Returns، وبعدين نطبقها على كل العملاء ونكوّن جدول Features على مستوى العميل.

قواعد بيانات المتجهات و pgvector

بعد ما يبقى معانا Embeddings للعملاء، بنحتاج نستعلم “أقرب جيران” بسرعة (أقرب Centroid أو أقرب عملاء شبه بعض)، وده صعب في SQL التقليدي باستعلامات معقدة وبطيئة.
شرح لفكرة Vector Databases والـ Approximate Nearest Neighbor عشان نقدر ندور في أبعاد كتير بكفاءة ونرجع أقرب عناصر لعميل أو Segment في الـ Recommendation والـ Personalization والـ Real‑time Marketing.
مثال عملي باستخدام PostgreSQL مع pgvector: نعمل عمود من نوع Vector، نخزن فيه Centroids والعملاء، ونستعلم “أقرب Centroid” لعميل جديد عشان نلحقه بأقرب Segment من غير ما نعيد الـ Clustering كله.

نصايح تعليم وكارير

الضيف حكى رحلته: خريج علوم حاسب، معيد، شغل في قطر، دكتوراه في كندا في Big Data (Hadoop, Spark)، شغل في Consulting، بعدين Amazon Search Ads، والوقت الحالي في Marketing Data Science.
نصيحته للي عايز يدخل المجال: ركّز على SQL وSpark، واشتغل في مكان فيه بيانات حقيقية ومشاكل بزنس حقيقية، وابدأ حتى كـ Data Engineer وبعدين طوّر نفسك في الموديلينج بدل ما تحفظ خوارزميات نظري.
رشّح كتاب “The One on Data” كمدخل كويس لفهم الداتا من منظور بزنس، وقال إن الداتا الـ Public كويسة للتدريب لكن القيمة الحقيقية في إنك تحل مشاكل نهاية‑لنهاية على بيانات حقيقية.

اكتشف الحلقات

المزيد