كيفية تقييم محركات الكلام إلى نص بشكل صحيح

ما هي أفضل طريقة لمقارنة محركات التعرف على الكلام؟ | صورة بواسطة Troy T على Unsplash

خلال العام الماضي ، أجريت الكثير من المناقشات مع العملاء والزملاء حول محرك التعرف على الكلام الأفضل في السوق. لسوء الحظ ، ما زلت أرى الكثير من الأخطاء الأساسية للغاية عند تقييمها. يمكن أن يؤدي الاختيار السيئ إلى تأثيرات كبيرة على حل صوتك لحالات الاستخدام المختلفة.

الخطأ الأول والأكثر شيوعًا الذي أسمعه هو التفكير في أنه إذا كان يعمل لشيء واحد ، فسيعمل مع أي شيء آخر ، يُعرف باسم "مقاس واحد يناسب الجميع". يزداد الأمر سوءًا عندما تدرك أن هناك بعض الفجوات التي لم تلاحظها وينتهي بك الأمر بترميز بعض الوظائف الموجودة بالفعل في محركات الكلام الأخرى. لكنه متأخر جدا. لقد استثمرت بالفعل أشهرًا في الحل ولا يمكنك التراجع عنه.

فيما يلي بعض الإرشادات العامة التي أوصي بها لتقييمك.

1. حدد بوضوح حالة الاستخدام والمتطلبات الخاصة بك

تشمل حالات الاستخدام الصوتي الشائعة مراكز الاتصال | تصوير أليكس كوتليارسكي على Unsplash

من المهم للغاية أن تعرف حالة الاستخدام المستهدف لحل صوتك المستقبلي.

عادةً ما يعالج نمط الرد الصوتي التفاعلي (IVR) التعبيرات القصيرة ، ويتطلب منك تحديد المقاصد والكيانات ومدخلات البيانات (معرف العضو ، ورقم بطاقة الائتمان ، والتواريخ ، ومعرف المنتج الأبجدي الرقمي ، وما إلى ذلك) ولديه تدفقات عملية محددة. حالات الاستخدام الشائعة هي الخدمة الذاتية وإدارة نقل قائمة انتظار المكالمات.

يتعامل نمط Call Analytics مع التسجيلات الصوتية الأطول (من 1 إلى 10 دقائق تقريبًا) ، ويتطلب منك تحديد رؤى رئيسية (أسماء المنتجات ، النغمة ، المشاعر ، إلخ) وعادة ما يكون لديك اثنين أو أكثر من مكبرات الصوت. ضمان جودة المكالمة وثغرات رضا العملاء والشعور العام هي حالات استخدام شائعة.

أشجعك على الاستماع إلى تسجيلات المكالمات ، والرسم على لوحة التفاعلات النموذجية ، مثل تدفق العملية وتوثيق متطلباتك. تحقق أيضًا من أشياء مثل جودة الصوت ، وعوامل الضوضاء ، واللهجات ، والتداخل المتبادل ، وهي مؤشرات للتحديات المحتملة التي تتم ملاحظتها بشكل متكرر.

2. اجمع البيانات التمثيلية وحدد منهجية اختبار

البيانات التمثيلية ومنهجية الاختبار الجيدة هي مفتاح التقييم الصحيح لمحركات الكلام | تصوير ميكا بوميستر على Unsplash | تصوير داريا نيبرياخينا على Unsplash

لتقييم محركات التعرف على الكلام ، تحتاج إلى الحصول على بيانات تمثيلية تتعلق بحالة الاستخدام الخاصة بك ، مع عوامل رئيسية مثل الأجهزة المستخدمة والبيئة (مثل مستودع صاخب) واللهجات. تحقق من هذه المقالة لمزيد من التفاصيل حول كيفية جمع وبناء مجموعات البيانات الصوتية.

بمجرد الحصول على البيانات الخاصة بك ، تحتاج إلى تحديد منهجية اختبار بناءً على حالة الاستخدام الخاصة بك. كما توقعت ، فإن اختبار نمط IVR يختلف عن نمط Call Analytics. دعنا نستخدم نمط الرد الصوتي التفاعلي كمثال للمضي قدمًا.

بعض البيانات الشائعة التي نراها في نمط الرد الآلي هي:

  • عبارات صغيرة لتحديد المقاصد والكيانات ("أحتاج إلى التحقق من حالة مطالبتي" ، "كيف أضيف ابنتي إلى سياستي؟" ، "يتعطل جهاز الكمبيوتر طوال الوقت")
  • مدخلات البيانات لمصادقة المستخدم مثل معرف العضو ("LK12345") وتاريخ الميلاد ("25 يناير 1973" ، "01/25/73")
  • اسم المنتج ("Macbook Air" أو "Colgate Mouthwash") أو رقم السياسة الفريد ("PQ1234R67") أو رقم المطالبة ("1234K56")

كما سنرى لاحقًا في هذه المقالة ، سنحتاج إلى اختبار وقياس كل فئة بيانات على حدة وتوثيق النتائج.

ملاحظة مهمة: من الأخطاء الشائعة أن تقتصر اختباراتك على "الطراز الأساسي الجاهز" لكل مشغل الكلام. تجنب بأي ثمن. لكل مورد ميزات ووظائف لتحسين الدقة وإصلاح الفجوات المحتملة. اختبرها ومقارنتها.

يعد معدل الخطأ في الكلمات مقياسًا جيدًا ... ولكنه ليس جيدًا

يدعي جميع البائعين أنه يمكنهم الحصول على معدل خطأ في الكلمات (WER) بنسبة 1٪ (في ظل ظروف معملية مثالية مع الإنجليزية البسيطة). هذا بالتأكيد ليس واقعيا وهذا يحدد التوقعات الخاطئة. يتعامل الإنسان العادي مع 4-5٪ من WER في ظل ظروف مثالية. إذا كنت قد استمعت إلى مكالمات عادية ، فمن الشائع جدًا سماع وكيل اتصال يطلب من المستخدم التكرار ، خاصة إذا كان المستخدم في شارع مزدحم أو مستودع صاخب أو ببساطة خارج في يوم عاصف. إذا كان المستخدم يتحدث بلكنة أجنبية سميكة ، فقد يصبح أسوأ. هذه هي "عوامل الحياة الحقيقية" التي تؤثر بشكل مباشر على WER.

إليك سبب عدم الاعتماد مطلقًا على WER فقط لتقييم محركات الكلام لديك. يقوم WER بتقييم نسخ الكلام (الفرضية) مقابل النسخ البشري (المرجع) وتحديد الأخطاء مثل الحذف والإدخال والاستبدال. إذا لم يكن ناسخك البشريون متسقين في النسخ الخاصة بهم عند بناء مراجعك ، فقد تحصل على خطأ كلمة عندما لا يكون واحدًا بالفعل.

"إنه" مقابل "إنه": خطأ في الكلمات (ليس حقًا!)
"خمسة ثلاثة" مقابل "5 3": خطأ كلمة (حقا !؟)

هناك جانب آخر يدور حول ما نسميه كلمات "الغراء" ("the" ، "و" ، "I" ، "هم" ، "so" ، "this" ، "it") التي لديها أعلى حجم في المحادثات النموذجية. هم أيضا بلا معنى تماما.

غالبًا ما تكون الكلمات الأكثر معنىً نادرة في المحادثة لكنها الأكثر أهمية ("مطالبات" ، "حاجة" ، "سياسة" ، "شراء" ، "بيع" ، "شراء"). يتم استخدامها لتحديد أهدافك وكياناتك.

إذا حصلت على 10٪ من WER ولكن أغفلت نواياك وكياناتك بنسبة 50٪ لأن كلماتك ذات المعنى لم يتم نسخها بشكل صحيح ، فإن دقة الكلام التي تبلغ 90٪ لا تمثل الأداء الحقيقي لحل صوتك.

بالنسبة لمدخلات البيانات (معرف العضو ، رقم المطالبة ، التاريخ) ، WER غير ذي صلة لأنه إذا كانت كلمة واحدة خاطئة ، يعتبر إدخال البيانات بالكامل خطأ. المقياس الذي نستخدمه في هذه الحالة هو معدل خطأ الجملة (SER). كما يمكنك أن تتخيل ، حتى لو كان لديك WER منخفض ، لا يزال بإمكانك الحصول على SER عالية:

على سبيل المثال ، إذا كان لديك 10 أرقام سياسة مكونة من 5 أرقام لكل منها 50 حرفًا
إذا كان رقم واحد خاطئًا في كل رقم سياسة = 5 أخطاء في الكلمات (10٪ WER)
إذا كان رقم واحد خاطئًا في كل رقم سياسة = أخطاء جملة 100٪ (100٪ SER)

هناك مقياس آخر يجب أخذه في الاعتبار وهو "معدل التعرف على النية / الكيان". إذا أرسلت الكلام (النسخ الصوتي) كما هو إلى برنامج الدردشة الآلي الخاص بك ، فهل يتم التعرف على نيتك؟ - إذا كان الجواب نعم ، فقد حقق محرك الكلام هدفه. إذا لم يكن الأمر كذلك ، تحقق من وجود مصطلحات خاصة بالمجال ، وجودة الصوت (الضوضاء ، الحديث المتبادل) ، سياق المحادثة ، ثم استفد من الميزات والوظائف الإضافية المتاحة لتحسين الدقة.

3. تجربة وتقييم جميع الميزات المتاحة

أحد الأمثلة التي أستخدمها كثيرًا في مناقشاتي هو العشاري الأولمبي. لا يجب أن يكون اللاعب الذي يفوز بالميدالية الذهبية رقم 1 في الوثب العالي ، ولا يحتاج إلى كسر الرقم القياسي العالمي في حواجز 110 متر. المفتاح هو الأداء الجيد في تخصصات كافية لتحقيق أهدافك.

بالنسبة للتعرف على الكلام ، يمكنك الحصول على نموذج أساسي رائع جاهز مع نتائج رائعة للتعبير العام عن الاستخدام ، ولكن ماذا عن التعرف على المصطلحات الخاصة بالمجال أو المدخلات الأبجدية الرقمية؟ ماذا عن المستخدمين ذوي اللهجات الثقيلة الذين يعملون في بيئة صاخبة؟ هل يتعامل مع التواريخ بشكل صحيح؟ هل يكتشف الكلمات الرئيسية؟

ابدأ ببناء شبكة في Excel باستخدام قائمة المتطلبات الفنية ، واحدة لكل صف ، ثم ضع كل محرك للتعرف على الكلام في أعمدة فردية. في المسار الأول ، إذا رأيت ميزات الكلام والوظائف التي يمكن أن تلبي متطلبات ، قم بتوثيقها في خلية تقاطع فردية (متطلبات - محرك الكلام).

أنشئ تجارب مختلفة مع مجموعات اختبار البيانات الصوتية لقياس كل متطلب على حدة (على سبيل المثال ، نوايا / كيانات ، وتواريخ ، وأرقام مطالبات ، وأرقام سياسة ، ومعرفات أعضاء) مقابل كل محرك كلام وتقييم مدى سهولة تنفيذ / استخدام / صيانة هذه الميزات (مثل مقياس تصنيف 1-10).

لا تعتمد فقط على "كتيب" البائع لاستكمال تقييمك! لا تقبل الاختصارات والاختبارات السريعة! لا يوجد شيء مثل التجارب المنظمة الجيدة ، مما يجعل يديك متسختين وشاهد النتائج بنفسك.

كيف تجري تقييم ASR الخاص بك؟