نموذج Qwen3-ASR-Flash: قفزة نوعية في تقنيات تحويل الكلام إلى نص

في عالم التكنولوجيا المتسارع، تتنافس الشركات الكبرى لتطوير أدوات متقدمة لتحويل الكلام إلى نص بدقة عالية. وقد كشفت شركة علي بابا عن نموذجها الجديد Qwen3-ASR-Flash، الذي يعد بتحقيق مستويات دقة فائقة حتى في أصعب البيئات الصوتية واللغوية.

التقنيات المتقدمة وراء Qwen3-ASR-Flash

يعتمد نموذج Qwen3-ASR-Flash على الذكاء الاصطناعي Qwen3-Omni، وتم تدريبه على مجموعة ضخمة من البيانات الصوتية التي تتجاوز عشرات الملايين من الساعات. هذا النموذج ليس مجرد نموذج آخر للتعرف على الكلام، بل هو مصمم خصيصًا لتقديم أداء عالي الدقة حتى في البيئات الصوتية المعقدة أو الأنماط اللغوية الصعبة.

أظهرت البيانات من الاختبارات التي أُجريت في أغسطس 2025 أن هذا النموذج يمتلك قدرة مذهلة على التعامل مع التحديات الصوتية، مما يجعله منافسًا قويًا في سوق تحويل الكلام إلى نص.

الأداء مقارنة بالنماذج المنافسة

حقق نموذج Qwen3-ASR-Flash نسبة خطأ بلغت 3.97% في اختبار عام للغة الصينية، متفوقًا على المنافسين مثل Gemini-2.5-Pro الذي حقق 8.98% وGPT4o-Transcribe الذي حقق 15.72%. هذه النتيجة تبرز قدرة النموذج على تقديم أدوات تحويل كلام إلى نص أكثر دقة.

كما أثبت النموذج قدرته على التعامل مع اللهجات الصينية، حيث حقق نسبة خطأ بلغت 3.48%، وفي اللغة الإنجليزية حقق 3.81%، متفوقًا مرة أخرى على Gemini وGPT4o.

التفوق في تحويل الموسيقى إلى نص

أحد الجوانب التي تميز نموذج Qwen3-ASR-Flash هو قدرته على تحويل الموسيقى إلى نص بدقة عالية. عند التعرف على كلمات الأغاني، سجل النموذج نسبة خطأ بلغت 4.51%، وهي أفضل بكثير من منافسيه.

أكدت الاختبارات الداخلية على الأغاني الكاملة هذه القدرة الفريدة، حيث سجل النموذج نسبة خطأ بلغت 9.96%، مقارنة بـ 32.79% من Gemini-2.5-Pro و58.59% من GPT4o-Transcribe.

الميزات المبتكرة في الجيل القادم من أدوات التحويل

إضافة إلى الدقة العالية، يقدم النموذج ميزات مبتكرة مثل التحيز السياقي المرن. يمكن للمستخدمين الآن تزويد النموذج بنصوص خلفية بأي صيغة للحصول على نتائج مخصصة، دون الحاجة إلى معالجة معقدة للمعلومات السياقية.

يستخدم النظام الذكي السياق لتحسين دقته، دون التأثر بالبيانات غير المرتبطة التي قد يتم تزويده بها.

الخاتمة

من الواضح أن طموح علي بابا مع هذا النموذج هو أن يصبح أداة عالمية لتحويل الكلام إلى نص. يدعم النموذج 11 لغة مختلفة مع العديد من اللهجات، ويتميز بقدرته على تحديد اللغة المستخدمة بدقة ورفض الأجزاء غير الكلامية مثل الصمت أو الضوضاء الخلفية، مما يضمن نتائج أنظف من الأدوات السابقة.

يدعم النموذج بشكل عميق اللغة الصينية واللهجات الرئيسية مثل الكانتونية والسيتشوانية والمينان، بالإضافة إلى اللهجات الإنجليزية البريطانية والأمريكية. تشمل قائمة اللغات الأخرى المدعومة الفرنسية والألمانية والإسبانية والإيطالية والبرتغالية والروسية واليابانية والكورية والعربية.

Scroll to Top