أخبار2025-03-01١٢ دقيقة

Orionis تطلق خدمة LLM المحلية للشركات المنظمة

Orionis

2025-03-01

الشركات التي لديها بيانات حساسة في الأرجنتين وأوروغواي وأمريكا اللاتينية يمكنها الآن تشغيل نماذج لغوية على بنيتها التحتية الخاصة، مع دعم كامل، بدون الاعتماد على APIs خارجية، وبما يتوافق مع لوائح البيانات المحلية.

المشكلة التي نحلها

منذ أن بدأنا العمل مع شركات في القطاع المالي والصحي والقانوني، نفس السؤال كان يطرح في كل محادثة: 'كيف يمكننا استخدام LLMs بدون إرسال بيانات عملائنا إلى خوادم طرف ثالث؟' الإجابة حتى الآن كانت معقدة — تتطلب تجميع فريق ML داخلي، والبحث عن النماذج، وتهيئة البنية التحتية، والأمل أن كل شيء يعمل في الإنتاج.

اليوم نطلق خدمة تزيل تلك التعقيدات. ننشر نماذج لغوية مفتوحة المصدر مباشرة على بنية العميل التحتية — سواء كانت سحابة خاصة أو مركز بيانات محلي أو أجهزتك الخاصة — بحزمة إنتاج كاملة جاهزة للاستخدام من اليوم الأول.

هذا ليس منتج SaaS بغلاف جميل. إنه نشر حقيقي، على بنيتك التحتية، بتحكمك الكامل في البيانات والنماذج والوصول. عندما ننهي المشروع، كل الكود والتهيئة والتوثيق ملكك.

ما تتضمنه الخدمة بالضبط

الخدمة تتكون من أربعة مكونات رئيسية تغطي كل ما يلزم للانتقال من الصفر إلى الإنتاج.

المكون ١ — التشخيص والتصميم (أسبوعان): نراجع تدفقات بياناتك، نحدد أي معلومات منظمة، نقيّم بنيتك التحتية الحالية، ونصمم الهندسة المستهدفة. نسلّم وثيقة هندسة بمخططات ومواصفات أجهزة وتقديرات تكاليف تشغيلية وخطة تنفيذ أسبوعية.

المكون ٢ — النشر والتهيئة (٣-٤ أسابيع): نثبت ونهيئ الحزمة الكاملة. يشمل خادم الاستدلال (vLLM أو TGI)، والنموذج المختار (Llama 3.1 أو Mistral Large أو Qwen 2.5 أو آخر بناءً على حالة الاستخدام)، وخط أنابيب RAG إن كان منطبقاً (مع Qdrant أو pgvector)، وبوابة API المتوافقة مع OpenAI، وحزمة المراقبة (Prometheus وGrafana وLangfuse).

المكون ٣ — التكامل والضبط الدقيق (٢-٣ أسابيع): نربط النشر بأنظمتك الحالية عبر API، ونهيئ الموجهات وسير العمل لحالات استخدامك المحددة، وإذا لزم الأمر، نضبط النموذج بدقة ببياناتك (دائماً داخل بنيتك التحتية).

المكون ٤ — التسليم والدعم (أسبوعان + عقد مستمر): ندرب فريق تقنية المعلومات لديك على تشغيل وصيانة النظام، ونسلّم توثيق عمليات كاملاً، ونبدأ فترة دعم ما بعد النشر حيث نراقب بشكل استباقي ونحل الحوادث.

المكونات الأربعة لخدمة LLM المحلية

التشخيص والتصميم (أسبوعان)

مراجعة البيانات، تقييم البنية التحتية، الهندسة المستهدفة، خطة التنفيذ

النشر والتهيئة (٣-٤ أسابيع)

vLLM/TGI، النموذج المختار، خط أنابيب RAG، بوابة API، حزمة المراقبة

التكامل والضبط الدقيق (٢-٣ أسابيع)

الربط بالأنظمة الحالية، تهيئة الموجهات وسير العمل، الضبط الدقيق إن كان منطبقاً

التسليم والدعم (أسبوعان + مستمر)

تدريب عملي، توثيق تشغيلي، مراقبة استباقية، SLA بـ ٤ ساعات

الصناعات المستهدفة وحالات الاستخدام

صممنا الخدمة لأربع صناعات رئيسية، لكن الهندسة حيادية — تنطبق على أي شركة لديها متطلبات سيادة بيانات.

التقنية المالية والبنوك: تحليل طلبات الائتمان آلياً، اكتشاف الاحتيال بالبيانات الداخلية، توليد التقارير التنظيمية (BCRA، BCU، CMF)، مساعدون داخليون لمسؤولي الامتثال، ومعالجة وثائق KYC/AML بدون كشف بيانات العملاء.

الرعاية الصحية: ملخصات السجلات الطبية الآلية، تنبيهات تفاعل الأدوية، مساعدو ترميز التشخيص (ICD-10)، تحليل نتائج المختبرات، وتوليد التقارير الطبية المنظمة. كل ذلك بما يتوافق مع لوائح بيانات الصحة المحلية.

القانون: مراجعة العقود الآلية واكتشاف البنود الإشكالية، البحث الدلالي في السوابق القضائية الداخلية، توليد مسودات المستندات القانونية، وتحليل مخاطر التقاضي. مكاتب المحاماة تتعامل مع معلومات شديدة السرية لا يمكنها مغادرة محيطها.

التأمين: معالجة المطالبات الآلية، تحليل البوالص، اكتشاف احتيال المطالبات، وتوليد التقارير لشركات إعادة التأمين. حجم الوثائق في التأمين يجعل الأثر التشغيلي للذكاء الاصطناعي هائلاً.

التسعير ونموذج التعاقد

نحن شفافون بشأن التكاليف لأننا نؤمن أن مفاجآت الأسعار تدمر الثقة.

خدمة التنفيذ لها تكلفة ثابتة تختلف بناءً على تعقيد النشر. لإعطائك نطاقاً إرشادياً: نشر قياسي (نموذج واحد، حالة استخدام رئيسية واحدة، بنية تحتية سحابة خاصة) يبدأ من ٢٥,٠٠٠-٣٥,٠٠٠ دولار. نشر معقد (نماذج متعددة، ضبط دقيق، تكامل مع عدة أنظمة قديمة، بنية تحتية محلية بالكامل) يمكن أن يصل إلى ٦٠,٠٠٠-٨٠,٠٠٠ دولار.

هذا يشمل كل أعمال التشخيص والنشر والتكامل والضبط الدقيق إن كان منطبقاً ونقل المعرفة. لا تكاليف خفية ولا مفاجآت.

عقد الدعم المستمر (اختياري لكن موصى به) له تكلفة شهرية تشمل: مراقبة استباقية على مدار الساعة، تحديث النماذج (نقيّم الإصدارات الجديدة وننشرها إذا حسّنت الأداء)، دعم تقني بـ SLA مدته ٤ ساعات للحوادث الحرجة، و٨ ساعات شهرية من الاستشارات لحالات استخدام أو تحسينات جديدة. تكلفة الدعم تختلف حسب حجم النشر، لكن كمرجع هي في نطاق ٣,٠٠٠-٦,٠٠٠ دولار/شهر.

مهم: تكاليف البنية التحتية (GPU، التخزين، الشبكة) يتحملها العميل. ننصحك بالاختيار ونساعدك في التفاوض مع المزودين، لكن البنية التحتية ملكك.

شفافية كاملة في الأسعار: التنفيذ القياسي من ٢٥,٠٠٠-٣٥,٠٠٠ دولار، المعقد حتى ٦٠,٠٠٠-٨٠,٠٠٠ دولار. الدعم المستمر ٣,٠٠٠-٦,٠٠٠ دولار/شهر. بدون تكاليف خفية أو مفاجآت.

عملية الإلحاق خطوة بخطوة

الأسبوع ٠ — التقييم الأولي (بدون تكلفة): نلتقي عبر مكالمة فيديو، نفهم حالتك، ونخبرك بصراحة ما إذا كانت الخدمة منطقية لشركتك. إذا لم تكن، سنخبرك ونوصي ببدائل. هذا التقييم بدون تكلفة أو التزام.

الأسبوعان ١-٢ — التشخيص: فريقنا التقني يراجع بنيتك التحتية وتدفقات البيانات والمتطلبات التنظيمية. معاً نحدد نطاق المشروع والنموذج المستخدم والهندسة المستهدفة. نوقع العقد بنطاق وجدول زمني وأسعار مثبتة.

الأسابيع ٣-٦ — التنفيذ: ننشر الحزمة على بنيتك التحتية. نجري اختبارات الحمل واختبارات الأمان واختبارات التكامل. نشغل تجربة ببيانات حقيقية (أو مجهولة الهوية، حسب تفضيلك) للتحقق من جودة الاستجابة والأداء.

الأسبوعان ٧-٨ — الإطلاق والتسليم: ننتقل إلى الإنتاج مع مراقبة مكثفة. ندرب فريقك بجلسات عملية (لا PowerPoints — طرفيات مفتوحة وممارسة حقيقية). نسلّم أدلة التشغيل للسيناريوهات الأكثر شيوعاً: كيف تعيد تشغيل الخدمة، كيف تحدّث نموذجاً، كيف تضيف حالة استخدام جديدة، ماذا تفعل إذا تعطلت GPU.

الأسابيع ٩-١٢ — الاستقرار: نستمر في المراقبة النشطة، نعدّل التهيئة بناءً على سلوك الإنتاج الحقيقي، ونحل أي حوادث. بنهاية هذه الفترة، يجب أن يكون فريقك قادراً على تشغيل النظام باستقلالية.

تفصيل مهم: طوال العملية بأكملها، نعمل في أزواج مع فريقك. لا نفعل شيئاً بمفردنا في غرفة مغلقة. نقل المعرفة يبدأ من اليوم الأول، وليس في النهاية.

دراسة حالة: شركة تقنية مالية للإقراض في بوينس آيرس

لتوضيح كيف يعمل هذا عملياً، نشارك حالة حديثة (بإذن العميل، ببيانات مجهولة).

شركة تقنية مالية في بوينس آيرس تضم ١٣٠ موظفاً تعالج أكثر من ٢,٠٠٠ طلب ائتمان شهرياً. كل طلب يتطلب تحليل وثائق (إيصالات رواتب، كشوف بنكية، تقارير Veraz الائتمانية)، ومطابقة البيانات مع مصادر خارجية، وتوليد تقرير مخاطر للجنة الائتمان. العملية اليدوية كانت تستغرق بين ٤٥ دقيقة وساعتين لكل طلب.

المشكلة التنظيمية: BCRA يتطلب ألا تغادر البيانات المالية للمتقدمين محيط البنك أو شركة التقنية المالية. استخدام GPT-4 عبر API لتحليل إيصالات الرواتب كان غير ممكن قانونياً.

ما نفذناه: Llama 3.1 70B يعمل على VPC مخصص على AWS (منطقة ساو باولو، الأقرب بتوفر GPU). خط أنابيب RAG بلوائح BCRA وسياسات الشركة الداخلية كقاعدة معرفة. تكامل مباشر مع نظامهم الأساسي عبر API.

النتائج بعد ٣ أشهر: وقت التحليل لكل طلب انخفض من متوسط ٩٠ دقيقة إلى ١٢ دقيقة (تخفيض ٨٥٪). معدل الموافقات الخاطئة بقي كما هو (النموذج ليس أقل تحفظاً من المحللين). فريق الائتمان انتقل من معالجة ١٠ طلبات لكل شخص يومياً إلى ٣٥. والأهم: الجهة التنظيمية راجعت النظام ووافقت عليه بدون اعتراضات.

إذا كانت لديك حالة مشابهة أو أردت تقييم ما إذا كانت الخدمة تنطبق على شركتك، راسلنا على marhaba@orionis.consulting. التقييم الأولي مجاني.

تخفيض ٨٥٪ في وقت التحليل: من ٩٠ دقيقة إلى ١٢ دقيقة لكل طلب ائتمان. الفريق انتقل من ١٠ إلى ٣٥ طلباً/يوم لكل شخص، والجهة التنظيمية وافقت على النظام بدون اعتراضات.

المراجع

BCRA — Consolidated Text on Technology Risk and Information Security Management Standards

Banco Central de la República Argentina

BCRA — Communication A 6017: Technology Risk Management Guidelines

BCRA

Disposition 60-E/2016 — Security Measures for Personal Data (Argentina)

Argentina.gob.ar