تاريخ الترجمة الآلية من الحرب الباردة إلى التعلم العميق

أفتح تطبيق Google Translate مرتين أكثر من Facebook ، ولم تعد الترجمة الفورية لبطاقات الأسعار بمثابة cyberpunk بالنسبة لي. هذا ما نسميه الواقع. من الصعب أن نتخيل أن هذا هو نتيجة المعركة المئوية لبناء خوارزميات الترجمة الآلية وأنه لم يكن هناك نجاح ملحوظ خلال نصف تلك الفترة.

وضعت التطورات الدقيقة التي سأناقشها في هذه المقالة الأساس لجميع أنظمة معالجة اللغة الحديثة - من محركات البحث إلى أجهزة الميكروويف التي يتم التحكم فيها بالصوت. أنا أتحدث عن تطور وهيكل الترجمة عبر الإنترنت اليوم.

في البداية

بدأت القصة في عام 1933. قدم العالم السوفيتي بيتر ترويانسكي "آلة اختيار وطباعة الكلمات عند الترجمة من لغة إلى أخرى" إلى أكاديمية العلوم في اتحاد الجمهوريات الاشتراكية السوفياتية. كان الاختراع بسيطًا للغاية - كان يحتوي على بطاقات بأربع لغات مختلفة ، وآلة كاتبة ، وكاميرا أفلام قديمة.

أخذ العامل الكلمة الأولى من النص ، ووجد بطاقة مقابلة ، والتقط صورة ، وكتب خصائصها المورفولوجية (اسم ، جمع ، مضاف) على الآلة الكاتبة. قامت مفاتيح الآلة الكاتبة بتشفير إحدى الميزات. تم استخدام الشريط وفيلم الكاميرا في وقت واحد ، مما أدى إلى إنشاء مجموعة من الإطارات مع الكلمات وتشكيلها.

على الرغم من كل هذا ، كما حدث غالبًا في الاتحاد السوفيتي ، كان الاختراع يعتبر "عديم الفائدة". توفي Troyanskii بسبب Stenocardia بعد محاولته إنهاء اختراعه لمدة 20 عامًا. لم يعرف أحد في العالم عن الآلة حتى عثر عالمان سوفياتيان على براءات اختراعه في عام 1956.

كان ذلك في بداية الحرب الباردة. في السابع من كانون الثاني (يناير) 1954 ، في مقر شركة IBM في نيويورك ، بدأت تجربة Georgetown-IBM. قام كمبيوتر IBM 701 تلقائيًا بترجمة 60 جملة روسية إلى الإنجليزية لأول مرة في التاريخ.

"فتاة لم تفهم كلمة واحدة من لغة السوفييت خرقت الرسائل الروسية على بطاقات IBM. قام "الدماغ" بقطع ترجماته الإنجليزية على طابعة تلقائية بسرعة فائقة تبلغ سطرين ونصف في الثانية ، " - أفاد البيان الصحفي لشركة IBM.

ومع ذلك ، فإن العناوين المنتصرة أخفت أحد التفاصيل الصغيرة. لم يذكر أحد أن الأمثلة المترجمة تم اختيارها بعناية واختبارها لاستبعاد أي غموض. للاستخدام اليومي ، لم يكن هذا النظام أفضل من كتاب تفسير العبارات الشائعة الجيب. ومع ذلك ، انطلق هذا النوع من سباق التسلح: انضمت كل من كندا ، وألمانيا ، وفرنسا ، وخاصة اليابان ، إلى سباق الترجمة الآلية.

السباق على الترجمة الآلية

استمر الكفاح العبثي لتحسين الترجمة الآلية لمدة أربعين عامًا. في عام 1966 ، وصفت لجنة ALPAC الأمريكية ، في تقريرها الشهير ، الترجمة الآلية باهظة الثمن وغير دقيقة وغير واعدة. وبدلاً من ذلك أوصوا بالتركيز على تطوير القاموس ، مما أدى إلى استبعاد الباحثين الأمريكيين من السباق لمدة عقد تقريبًا.

ومع ذلك ، تم إنشاء أساس لمعالجة اللغة الطبيعية الحديثة فقط من قبل العلماء ومحاولاتهم وأبحاثهم وتطوراتهم. ظهرت جميع محركات البحث ومرشحات البريد العشوائي والمساعدين الشخصيين اليوم بفضل مجموعة من البلدان التي تتجسس على بعضها البعض.

الترجمة الآلية القائمة على القواعد (RBMT)

ظهرت الأفكار الأولى المتعلقة بالترجمة الآلية القائمة على القواعد في السبعينيات. حدق العلماء في عمل المترجمين الفوريين ، محاولين إجبار أجهزة الكمبيوتر البطيئة للغاية على تكرار تلك الإجراءات. تتكون هذه الأنظمة من:

  • قاموس ثنائي اللغة (RU -> EN)
  • مجموعة من القواعد اللغوية لكل لغة (على سبيل المثال ، الأسماء المنتهية بلواحق معينة مثل -heit، -keit، -ung هي أنثوية)

هذا هو. إذا لزم الأمر ، يمكن استكمال الأنظمة بالقرصنة ، مثل قوائم الأسماء ، ومصححات الإملاء ، والمترجمين.

PROMPT و Systran هما أشهر الأمثلة على أنظمة RBMT. ما عليك سوى إلقاء نظرة على Aliexpress لتشعر برائحة هذا العصر الذهبي.

ولكن حتى لديهم بعض الفروق الدقيقة والأنواع الفرعية.

الترجمة الآلية المباشرة

هذا هو أكثر أنواع الترجمة الآلية مباشرة. يقسم النص إلى كلمات ، ويترجمها ، ويصحح التشكل قليلاً ، وينسق بناء الجملة لجعل كل شيء يبدو صحيحًا ، أكثر أو أقل. عندما تغرب الشمس ، يكتب اللغويون المدربون قواعد كل كلمة.

يُرجع الإخراج نوعًا من الترجمة. عادة ، إنه سيئ للغاية. يبدو أن اللغويين أضاعوا وقتهم من أجل لا شيء.

الأنظمة الحديثة لا تستخدم هذا النهج على الإطلاق ، واللغويون الحديثون ممتنون.

الترجمة الآلية القائمة على التحويل

على عكس الترجمة المباشرة ، نستعد أولاً من خلال تحديد البنية النحوية للجملة ، كما تعلمنا في المدرسة. ثم نتعامل مع التراكيب الكاملة ، وليس الكلمات ، بعد ذلك. يساعد هذا في الحصول على تحويل لائق تمامًا لترتيب الكلمات في الترجمة. نظريا.

في الممارسة العملية ، لا يزال يؤدي إلى ترجمة حرفية وإرهاق اللغويين. من ناحية أخرى ، جلبت قواعد نحوية عامة مبسطة. ولكن من ناحية أخرى ، أصبح الأمر أكثر تعقيدًا بسبب زيادة عدد تكوينات الكلمات مقارنة بالكلمات المفردة.

الترجمة الآلية بين اللغات

في هذه الطريقة ، يتم تحويل النص المصدر إلى التمثيل الوسيط ، وهو موحد لجميع لغات العالم (interlingua). إنها نفس Interlingua التي حلم بها ديكارت: لغة فوقية تتبع القواعد العالمية وتحول الترجمة إلى مهمة بسيطة "ذهابًا وإيابًا". بعد ذلك ، ستتحول interlingua إلى أي لغة مستهدفة ، وهنا كانت التفرد!

بسبب التحويل ، غالبًا ما يتم الخلط بين Interlingua والأنظمة القائمة على التحويل. الاختلاف هو القواعد اللغوية الخاصة بكل لغة و interlingua ، وليس الأزواج اللغوية. هذا يعني أنه يمكننا إضافة لغة ثالثة إلى نظام interlingua والترجمة بين الثلاثة. لا يمكننا القيام بذلك في الأنظمة القائمة على النقل.

تبدو مثالية ، لكنها ليست كذلك في الحياة الواقعية. كان من الصعب للغاية إنشاء مثل هذه الإنترلينجوا العالمية - لقد عمل الكثير من العلماء عليها طوال حياتهم. لم ينجحوا ، لكن بفضلهم أصبح لدينا الآن مستويات التمثيل الصرفي والنحوي وحتى الدلالي. لكن نظرية نص المعنى الوحيدة تكلف ثروة!

ستعود فكرة اللغة الوسيطة. دعنا ننتظر لحظة.

كما ترون ، كل RBMT غبية ومرعبة ، ولهذا السبب نادرًا ما يتم استخدامها إلا في حالات محددة (مثل ترجمة تقرير الطقس ، وما إلى ذلك). من بين مزايا RBMT ، غالبًا ما يتم ذكرها هي دقتها المورفولوجية (لا تخلط بين الكلمات) ، وإمكانية تكرار النتائج (يحصل جميع المترجمين على نفس النتيجة) ، والقدرة على ضبطها حسب مجال الموضوع (لتعليم الاقتصاديين أو المصطلحات خاصة بالمبرمجين ، على سبيل المثال).

حتى لو نجح أي شخص في إنشاء RBMT مثالي ، وقام اللغويون بتحسينه بكل قواعد التهجئة ، فسيكون هناك دائمًا بعض الاستثناءات: جميع الأفعال الشاذة في اللغة الإنجليزية ، والبادئات القابلة للفصل في الألمانية ، واللواحق باللغة الروسية ، والمواقف التي يكون فيها الأشخاص فقط قلها بشكل مختلف. أي محاولة لمراعاة جميع الفروق الدقيقة ستضيع ملايين ساعات العمل.

ولا تنسى التماثلات. يمكن أن يكون للكلمة نفسها معنى مختلف في سياق مختلف ، مما يؤدي إلى مجموعة متنوعة من الترجمات. كم معاني يمكنك أن تدركها هنا: لقد رأيت رجلاً على تل به تلسكوب ؟

لم تتطور اللغات بناءً على مجموعة ثابتة من القواعد - وهي حقيقة يحبها علماء اللغة. لقد تأثروا أكثر بكثير بتاريخ الغزوات في الثلاثمائة سنة الماضية. كيف تشرح ذلك لآلة؟

أربعون عامًا من الحرب الباردة لم تساعد في إيجاد أي حل متميز. كان RBMT ميتًا.

الترجمة الآلية القائمة على الأمثلة (EBMT)

كانت اليابان مهتمة بشكل خاص بالقتال من أجل الترجمة الآلية. لم تكن هناك حرب باردة ، ولكن كانت هناك أسباب: قلة قليلة من الناس في البلاد يعرفون اللغة الإنجليزية. ووعدت بأن تكون قضية كبيرة في حزب العولمة القادم. لذلك كان اليابانيون متحمسين للغاية لإيجاد طريقة عمل للترجمة الآلية.

الترجمة الإنجليزية-اليابانية القائمة على القواعد معقدة للغاية. هيكل اللغة مختلف تمامًا ، ويجب إعادة ترتيب جميع الكلمات تقريبًا وإضافة كلمات جديدة. في عام 1984 ، ابتكر ماكوتو ناجاو من جامعة كيوتو فكرة استخدام عبارات جاهزة بدلاً من الترجمة المتكررة .

لنتخيل أنه يتعين علينا ترجمة جملة بسيطة - "أنا ذاهب إلى السينما". ولنفترض أننا قمنا بالفعل بترجمة جملة أخرى مماثلة - "أنا ذاهب إلى المسرح" - ويمكننا العثور على كلمة "سينما" في القاموس.

كل ما نحتاجه هو معرفة الفرق بين الجملتين ، وترجمة الكلمة المفقودة ، ثم عدم إفسادها. كلما توفرت لدينا أمثلة أكثر ، كانت الترجمة أفضل.

أقوم ببناء عبارات بلغات غير مألوفة بنفس الطريقة تمامًا!

أظهر EBMT ضوء النهار للعلماء من جميع أنحاء العالم: اتضح أنه يمكنك فقط تغذية الآلة بالترجمات الحالية وعدم قضاء سنوات في تشكيل القواعد والاستثناءات. ليست ثورة بعد ، ولكن من الواضح أنها الخطوة الأولى نحوها. سيحدث الاختراع الثوري للترجمة الإحصائية في غضون خمس سنوات فقط.

الترجمة الآلية الإحصائية (SMT)

في أوائل عام 1990 ، في مركز أبحاث IBM ، تم عرض نظام ترجمة آلية لأول مرة لا يعرف شيئًا عن القواعد واللغويات ككل. قام بتحليل نصوص مماثلة بلغتين وحاول فهم الأنماط.

كانت الفكرة بسيطة ولكنها جميلة. جملة متطابقة في لغتين مقسمة إلى كلمات ، والتي تمت مطابقتها بعد ذلك. كررت هذه العملية حوالي 500 مليون مرة لحساب عدد المرات التي ترجمت فيها كلمة "داس هاوس" على أنها "منزل" مقابل "بناء" مقابل "بناء" ، وهكذا.

إذا كانت الكلمة المصدر تُترجم في معظم الأحيان على أنها "منزل" ، فإن الآلة تستخدم هذا. لاحظ أننا لم نضع أي قواعد ولم نستخدم أي قواميس - كل الاستنتاجات تم إجراؤها بواسطة الآلة ، مسترشدة بالإحصائيات والمنطق القائل "إذا ترجم الناس بهذه الطريقة ، سأكون كذلك" وهكذا ولدت الترجمة الإحصائية.

كانت الطريقة أكثر كفاءة ودقة من جميع الطرق السابقة. ولم تكن هناك حاجة لغويين. كلما زاد عدد النصوص التي استخدمناها ، حصلنا على ترجمة أفضل.

لا يزال هناك سؤال واحد متبقي: كيف ستربط الآلة بين كلمة "Das Haus" وكلمة "Building" - وكيف سنعرف أن هذه هي الترجمات الصحيحة؟

كان الجواب أننا لن نعرف. في البداية ، افترضت الآلة أن كلمة "Das Haus" مرتبطة بالتساوي مع أي كلمة من الجملة المترجمة. بعد ذلك ، عندما ظهر "Das Haus" في جمل أخرى ، سيزداد عدد الارتباطات مع "المنزل". هذه هي "خوارزمية محاذاة الكلمات" ، وهي مهمة نموذجية للتعلم الآلي على مستوى الجامعة.

احتاجت الآلة إلى ملايين وملايين الجمل بلغتين لجمع الإحصاءات ذات الصلة لكل كلمة. كيف حصلنا عليهم؟ حسنًا ، قررنا أخذ ملخصات اجتماعات البرلمان الأوروبي ومجلس الأمن التابع للأمم المتحدة - كانت متوفرة بلغات جميع البلدان الأعضاء وهي متاحة الآن للتنزيل في UN Corpora و Europarl Corpora.

SMT القائم على الكلمات

في البداية ، عملت أنظمة الترجمة الإحصائية الأولى عن طريق تقسيم الجملة إلى كلمات ، حيث كان هذا النهج واضحًا ومنطقيًا. كان أول نموذج ترجمة إحصائية لشركة IBM يسمى النموذج الأول. أنيقة للغاية ، أليس كذلك؟ خمن ماذا يسمون الثاني؟

النموذج 1: "حقيبة الكلمات"

استخدم النموذج الأول منهجًا كلاسيكيًا - للتقسيم إلى كلمات وإحصاءات العد. لم يؤخذ ترتيب الكلمات في الاعتبار. كانت الحيلة الوحيدة هي ترجمة كلمة واحدة إلى عدة كلمات. على سبيل المثال ، يمكن أن يتحول "Der Staubsauger" إلى "مكنسة كهربائية" ، لكن هذا لا يعني أنه سيتحول إلى العكس.

إليك بعض التطبيقات البسيطة في Python: shawa / IBM-Model-1.

النموذج 2: النظر في ترتيب الكلمات في الجمل

أصبح نقص المعرفة بترتيب كلمات اللغات مشكلة بالنسبة للنموذج 1 ، وهو مهم جدًا في بعض الحالات.

تعامل النموذج 2 مع ذلك: لقد حفظ المكان المعتاد الذي تأخذه الكلمة في الجملة الناتجة وخلط الكلمات للحصول على صوت أكثر طبيعية في الخطوة المتوسطة. تحسنت الأمور ، لكنها كانت لا تزال سيئة نوعًا ما.

النموذج 3: زيادة الخصوبة

ظهرت كلمات جديدة في الترجمة كثيرًا ، مثل المقالات باللغة الألمانية أو استخدام "do" عند النفي باللغة الإنجليزية. "إيتش سوف keine Persimonen" → "أنا لم أكن أريد الكاكي". للتعامل معها ، تمت إضافة خطوتين أخريين إلى النموذج 3.

  • إدراج رمز NULL ، إذا اعتبر الجهاز ضرورة وجود كلمة جديدة
  • اختيار الجسيمات النحوية الصحيحة أو الكلمة لكل محاذاة كلمة رمزية

النموذج 4: محاذاة الكلمات

اعتبر النموذج 2 كلمة محاذاة ، لكنه لم يعرف شيئًا عن إعادة الترتيب. على سبيل المثال ، غالبًا ما تقوم الصفات بتبديل الأماكن مع الاسم ، وبغض النظر عن مدى جودة حفظ الترتيب ، فلن تجعل المخرجات أفضل. لذلك ، أخذ النموذج 4 في الاعتبار ما يسمى بـ "الترتيب النسبي" - تعلم النموذج إذا كانت كلمتان دائمًا ما يغيران الأماكن.

النموذج 5: إصلاحات الأخطاء

لا جديد هنا. حصل النموذج 5 على مزيد من المعلمات للتعلم وأصلح المشكلة مع مواضع الكلمات المتضاربة.

على الرغم من طبيعتها الثورية ، إلا أن الأنظمة القائمة على الكلمات لا تزال تفشل في التعامل مع القضايا والجنس والتماثل. تمت ترجمة كل كلمة بطريقة صحيحة واحدة ، وفقًا للآلة. لم تعد تستخدم مثل هذه الأنظمة ، حيث تم استبدالها بالطرق الأكثر تقدمًا القائمة على العبارات.

SMT القائم على العبارة

تعتمد هذه الطريقة على جميع مبادئ الترجمة المعتمدة على الكلمات: الإحصائيات وإعادة الترتيب والتسلل المعجمي. على الرغم من أنه ، من أجل التعلم ، قام بتقسيم النص ليس فقط إلى كلمات ولكن أيضًا إلى عبارات. كانت هذه عبارة عن n-grams ، على وجه الدقة ، والتي كانت عبارة عن سلسلة متجاورة من n من الكلمات على التوالي.

وهكذا ، تعلمت الآلة ترجمة مجموعات ثابتة من الكلمات ، مما أدى إلى تحسين الدقة بشكل ملحوظ.

كانت الحيلة هي أن العبارات لم تكن دائمًا تركيبات نحوية بسيطة ، وانخفضت جودة الترجمة بشكل كبير إذا تدخل أي شخص كان على دراية باللغويات وبنية الجمل. قال فريدريك جيلينك ، رائد اللغويات الحاسوبية ، مازحًا ذات مرة: "في كل مرة أقوم فيها بطرد لغوي ، يرتفع أداء أداة التعرف على الكلام".

إلى جانب تحسين الدقة ، قدمت الترجمة القائمة على العبارات المزيد من الخيارات في اختيار النصوص ثنائية اللغة للتعلم. بالنسبة للترجمة القائمة على الكلمات ، كانت المطابقة الدقيقة للمصادر أمرًا بالغ الأهمية ، مما أدى إلى استبعاد أي ترجمة أدبية أو مجانية. الترجمة القائمة على العبارات لم يكن لديها مشكلة في التعلم منها. لتحسين الترجمة ، بدأ الباحثون حتى في تحليل المواقع الإخبارية بلغات مختلفة لهذا الغرض.

بدءًا من عام 2006 ، بدأ الجميع في استخدام هذا النهج. عمل كل من Google Translate و Yandex و Bing وغيرهم من المترجمين البارزين عبر الإنترنت كمترجمين على الإنترنت يعتمدون على العبارات حتى عام 2016. ربما يتذكر كل واحد منكم اللحظات التي ترجمت فيها Google الجملة بشكل لا تشوبه شائبة أو نتج عنها هراء كامل ، أليس كذلك؟ جاء هذا الهراء من الميزات القائمة على العبارة.

لقد قدم النهج القديم الجيد المستند إلى القواعد باستمرار نتيجة متوقعة وإن كانت مروعة. كانت الأساليب الإحصائية مفاجئة ومحيرة. ترجمة جوجل تحول "ثلاثمائة" إلى "300" دون أي تردد. هذا يسمى الشذوذ الإحصائي.

أصبحت الترجمة المبنية على العبارات شائعة جدًا لدرجة أنك عندما تسمع "ترجمة آلية إحصائية" فهذا هو المقصود في الواقع. حتى عام 2016 ، أشادت جميع الدراسات بالترجمة القائمة على العبارات باعتبارها أحدث ما توصلت إليه التكنولوجيا. في ذلك الوقت ، لم يكن أحد يعتقد أن Google كانت بالفعل تؤجج نيرانها ، وتستعد لتغيير صورتنا الكاملة للترجمة الآلية.

SMT القائم على النحو

يجب أيضًا ذكر هذه الطريقة باختصار. قبل سنوات عديدة من ظهور الشبكات العصبية ، كانت الترجمة القائمة على النحو تعتبر "المستقبل أو الترجمة" ، لكن الفكرة لم تنطلق.

يعتقد أنصار الترجمة المبنية على بناء الجملة أنه من الممكن دمجها مع الطريقة القائمة على القواعد. من الضروري إجراء تحليل دقيق تمامًا للنحوي للجملة - لتحديد الموضوع والمُسند وأجزاء أخرى من الجملة ، ثم بناء شجرة الجملة. باستخدامه ، تتعلم الآلة تحويل الوحدات النحوية بين اللغات وترجمة الباقي بالكلمات أو العبارات. كان ذلك من شأنه أن يحل مشكلة محاذاة الكلمات مرة واحدة وإلى الأبد.

المشكلة هي أن التحليل النحوي يعمل بشكل رهيب ، على الرغم من حقيقة أننا نعتبره قد تم حله منذ فترة (حيث لدينا مكتبات جاهزة للعديد من اللغات). حاولت استخدام الأشجار النحوية للمهام أكثر تعقيدًا من تحليل الموضوع والمسند. وفي كل مرة استسلمت واستخدمت طريقة أخرى.

اسمحوا لي أن أعرف في التعليقات إذا نجحت في استخدامه مرة واحدة على الأقل.

الترجمة الآلية العصبية (NMT)

نُشِرَت ورقة بحثية مسلية للغاية حول استخدام الشبكات العصبية في الترجمة الآلية في عام 2014. ولم يلاحظ الإنترنت ذلك على الإطلاق ، باستثناء Google - فقد أخذوا مجارفهم وبدأوا في الحفر. بعد ذلك بعامين ، في نوفمبر 2016 ، أصدرت Google إعلانًا يغير قواعد اللعبة.

كانت الفكرة قريبة من نقل النمط بين الصور. هل تتذكر تطبيقات مثل Prisma ، التي عززت الصور بأسلوب بعض الفنانين المشهورين؟ لم يكن هناك سحر. تم تعليم الشبكة العصبية التعرف على لوحات الفنان. بعد ذلك ، تمت إزالة الطبقات الأخيرة التي تحتوي على قرار الشبكة. كانت الصورة المنمقة الناتجة هي الصورة الوسيطة التي حصلت عليها الشبكة. هذا هو خيال الشبكة ، ونحن نعتبرها جميلة.

إذا تمكنا من نقل النمط إلى الصورة ، فماذا لو حاولنا فرض لغة أخرى على نص المصدر؟ سيكون النص هو ذلك بالضبط "أسلوب الفنان" ، وسنحاول نقله مع الحفاظ على جوهر الصورة (بمعنى آخر ، جوهر النص).

تخيل أنني أحاول وصف كلبي - متوسط ​​الحجم ، وأنف حاد ، وذيل قصير ، ونباح دائمًا. إذا أعطيتك هذه المجموعة من سمات الكلب ، وإذا كان الوصف دقيقًا ، يمكنك رسمه ، حتى لو لم تره من قبل.

الآن ، تخيل أن النص المصدر هو مجموعة الميزات المحددة. يعني هذا في الأساس أنك تقوم بترميزه ، والسماح للشبكة العصبية الأخرى بفك تشفيرها مرة أخرى إلى النص ، ولكن بلغة أخرى. وحدة فك التشفير تعرف لغتها فقط. ليس لديه فكرة عن أصل السمات ، لكن يمكنه التعبير عنها ، على سبيل المثال ، باللغة الإسبانية. استمرارًا للتشابه ، لا يهم كيف ترسم الكلب - باستخدام أقلام تلوين أو ألوان مائية أو إصبعك. أنت ترسمه ما تستطيع.

مرة أخرى - يمكن لشبكة عصبية واحدة فقط ترميز الجملة لمجموعة محددة من الميزات ، ويمكن لشبكة أخرى فقط فك تشفيرها مرة أخرى إلى النص. كلاهما ليس لديه فكرة عن بعضهما البعض ، وكل منهما يعرف لغته الخاصة فقط. تذكر شيئا؟ عادت Interlingua. تا دا.

السؤال هو كيف نجد تلك الميزات؟ هذا واضح عندما نتحدث عن الكلب ، لكن كيف نتعامل مع النص؟ قبل ثلاثين عامًا ، حاول العلماء بالفعل إنشاء رمز لغة عالمي ، وانتهى الأمر بفشل كامل.

ومع ذلك ، لدينا تعلم عميق الآن. وهذه مهمتها الأساسية! يكمن التمييز الأساسي بين التعلم العميق والشبكات العصبية الكلاسيكية بدقة في القدرة على البحث عن تلك الميزات المحددة ، دون أي فكرة عن طبيعتها. إذا كانت الشبكة العصبية كبيرة بما يكفي ، وهناك بضعة آلاف من بطاقات الفيديو في متناول اليد ، فمن الممكن العثور على هذه الميزات في النص أيضًا.

نظريًا ، يمكننا تمرير الميزات المكتسبة من الشبكات العصبية إلى اللغويين ، حتى يتمكنوا من فتح آفاق جديدة شجاعة لأنفسهم.

السؤال هو ، ما نوع الشبكة العصبية التي يجب استخدامها للتشفير وفك التشفير؟ الشبكات العصبية التلافيفية (CNN) مناسبة تمامًا للصور لأنها تعمل بكتل مستقلة من البكسل.

لكن لا توجد كتل مستقلة في النص - كل كلمة تعتمد على محيطها. النص والكلام والموسيقى متسقة دائمًا. لذا فإن الشبكات العصبية المتكررة (RNN) ستكون الخيار الأفضل للتعامل معها ، لأنها تتذكر النتيجة السابقة - الكلمة السابقة ، في حالتنا.

يتم الآن استخدام RNNs في كل مكان - التعرف على الكلام من Siri (يقوم بتحليل تسلسل الأصوات ، حيث يعتمد التالي على السابق) ، ونصائح لوحة المفاتيح (احفظ السابق ، وخمن التالي) ، وتوليد الموسيقى ، وحتى برامج الدردشة.

بالنسبة للمهووسين مثلي: في الواقع ، تختلف بنية المترجمين العصبيين بشكل كبير. تم استخدام RNN العادي في البداية ، ثم تمت ترقيته إلى ثنائي الاتجاه ، حيث لم يأخذ المترجم الكلمات فقط قبل الكلمة المصدر ، ولكن أيضًا الكلمة التالية. كان ذلك أكثر فعالية. ثم تبع ذلك مع RNN متعدد الطبقات مع وحدات LSTM لتخزين سياق الترجمة على المدى الطويل.

في غضون عامين ، تجاوزت الشبكات العصبية كل ما ظهر في العشرين عامًا الماضية من الترجمة. تحتوي الترجمة العصبية على أخطاء أقل في ترتيب الكلمات بنسبة 50٪ ، وأخطاء معجمية أقل بنسبة 17٪ ، وأخطاء نحوية أقل بنسبة 19٪. حتى أن الشبكات العصبية تعلمت التنسيق بين الجنسين والحالة في لغات مختلفة. ولم يعلمهم أحد أن يفعلوا ذلك.

حدثت التحسينات الأكثر وضوحًا في المجالات التي لم تستخدم فيها الترجمة المباشرة مطلقًا. لطالما عملت طرق الترجمة الآلية الإحصائية باستخدام اللغة الإنجليزية كمصدر رئيسي. وبالتالي ، إذا قمت بالترجمة من الروسية إلى الألمانية ، فإن الآلة تقوم أولاً بترجمة النص إلى الإنجليزية ثم من الإنجليزية إلى الألمانية ، مما يؤدي إلى خسارة مضاعفة.

الترجمة العصبية لا تحتاج إلى ذلك - فقط وحدة فك ترميز مطلوبة حتى تعمل. كانت تلك هي المرة الأولى التي تصبح فيها الترجمة المباشرة بين اللغات بدون قاموس مشترك ممكنة.

ترجمة Google (منذ 2016)

في عام 2016 ، قامت Google بتشغيل الترجمة العصبية لتسع لغات. طوروا نظامهم المسمى Google Neural Machine Translation (GNMT). وهو يتألف من 8 وحدات تشفير و 8 طبقات مفكك تشفير من شبكات RNN ، فضلاً عن اتصالات الانتباه من شبكة مفكك التشفير.

لم يقسموا الجمل فحسب ، بل الكلمات أيضًا. هذه هي الطريقة التي تعاملوا بها مع واحدة من القضايا الرئيسية NMT - الكلمات النادرة. إن NMTs لا حول لهم ولا قوة عندما لا تكون الكلمة في قاموسهم. دعنا نقول ، "فاسك". أشك في أن أي شخص علم الشبكة العصبية أن يترجم اسم الشهرة الخاص بي. في هذه الحالة ، تحاول GMNT تقسيم الكلمات إلى أجزاء من الكلمات واستعادة الترجمة الخاصة بها. ذكي.

تلميح: لا تزال خدمة الترجمة من Google المستخدمة في ترجمة مواقع الويب في المتصفح تستخدم الخوارزمية القديمة القائمة على العبارة. بطريقة ما ، لم تقم Google بترقيته ، والاختلافات ملحوظة تمامًا مقارنة بالإصدار عبر الإنترنت.

تستخدم Google آلية التعهيد الجماعي في الإصدار عبر الإنترنت. يمكن للأشخاص اختيار الإصدار الذي يعتبرونه الأكثر صحة ، وإذا أعجبه الكثير من المستخدمين ، ستترجم Google دائمًا هذه العبارة بهذه الطريقة وتميزها بشارة خاصة. يعمل هذا بشكل خيالي مع العبارات القصيرة اليومية مثل ، "لنذهب إلى السينما" ، أو "أنا في انتظارك". تعرف Google اللغة الإنجليزية للمحادثة أفضل مني :(

يعمل Bing من Microsoft تمامًا مثل Google Translate. لكن Yandex مختلفة.

ترجمة Yandex (منذ 2017)

أطلقت Yandex نظام الترجمة العصبية الخاص بها في عام 2017. وكانت الميزة الرئيسية ، كما أعلن ، هي التهجين. يجمع Yandex بين الأساليب العصبية والإحصائية لترجمة الجملة ، ثم يختار أفضلها باستخدام خوارزمية CatBoost المفضلة.

الشيء هو أن الترجمة العصبية غالبًا ما تفشل عند ترجمة عبارات قصيرة ، لأنها تستخدم السياق لاختيار الكلمة الصحيحة. سيكون من الصعب أن تظهر الكلمة مرات قليلة جدًا في بيانات التدريب. في مثل هذه الحالات ، تجد الترجمة الإحصائية البسيطة الكلمة الصحيحة بسرعة وبساطة.

لا تشارك Yandex التفاصيل. إنه يصدنا ​​مع النشرات الصحفية التسويقية. حسنا.

يبدو أن Google تستخدم SMT لترجمة الكلمات والعبارات القصيرة. لم يذكروا ذلك في أي مقالة ، لكنه ملحوظ تمامًا إذا نظرت إلى الفرق بين ترجمة التعبيرات القصيرة والطويلة. الى جانب ذلك ، يتم استخدام SMT لعرض احصائيات الكلمة.

الخاتمة والمستقبل

لا يزال الجميع متحمسون لفكرة "بابل فيش" - الترجمة الفورية للكلام. لقد خطت Google خطوات نحوها من خلال Pixel Buds ، ولكن في الواقع ، لا يزال هذا ليس ما كنا نحلم به. تختلف الترجمة الفورية للكلام عن الترجمة المعتادة. عليك أن تعرف متى تبدأ الترجمة ومتى تصمت وتستمع. لم أر الطرق المناسبة لحل هذا حتى الآن. ما لم ، ربما ، سكايب ...

وإليك منطقة فارغة أخرى: كل التعلم يقتصر على مجموعة من الكتل النصية المتوازية. لا تزال أعمق الشبكات العصبية تتعلم من النصوص المتوازية. لا يمكننا تعليم الشبكة العصبية دون تزويدها بمصدر. يمكن للناس ، بدلاً من ذلك ، استكمال معجمهم بقراءة الكتب أو المقالات ، حتى لو لم يترجموها إلى لغتهم الأم.

إذا كان بإمكان الناس فعل ذلك ، يمكن للشبكة العصبية أن تفعل ذلك أيضًا ، من الناحية النظرية. لم أجد سوى نموذج أولي واحد يحاول تحريض الشبكة التي تعرف لغة واحدة على قراءة النصوص بلغة أخرى لاكتساب الخبرة. سأجربها بنفسي ، لكنني سخيف. حسنا هذا هو.

تمت كتابة هذه القصة في الأصل باللغة الروسية ثم ترجمها فاسيلي زوباريف إلى الإنجليزية على Vas3k.com . إنه صديقي بالمراسلة وأنا متأكد من أنه يجب نشر مدونته.

روابط مفيدة

  • فيليب كوهن: الترجمة الآلية الإحصائية. مجموعة كاملة من الطرق التي وجدتها.
  • موسى - مكتبة شعبية لإنشاء الترجمات الإحصائية الخاصة
  • OpenNMT - مكتبة أخرى ، ولكن للمترجمين العصبيين
  • مقال من أحد المدونين المفضلين لدي يشرح RNN و LSTM
  • فيديو "كيف تصنع مترجم لغة" ، رجل مضحك ، شرح أنيق. لا تزال غير كافية.
  • دليل نصي من TensorFlow حول إنشاء المترجم العصبي الخاص بك ، لأولئك الذين يريدون المزيد من الأمثلة وتجربة الكود.

مقالات أخرى من Vas3k.com

كيف تعمل Ethereum و Smart Contracts

آلة تورينج الموزعة مع حماية blockchain vas3k.com Blockchain من الداخل إلى الخارج: كيف تعمل Bitcoin

مرة واحدة وإلى الأبد بكلمات بسيطة vas3k.com

شيء أخير…

إذا كنت تحب هذا المقال ، انقر فوق ؟ أدناه ، ومشاركتها مع أشخاص آخرين حتى يتمكنوا من الاستمتاع بها أيضًا.