Matrix’s Post

View organization page for Matrix

96,932 followers

אמל"ק - מטריקס ומפא"ת שמחים לשחרר פלטפורמת תרגום עצמאית דו כיוונית לעברית וערבית בניב ישראלי. הפלטפורמה הינה מערכת מלאה הכוללת קוד אימון ואבלואציה, מודלי תרגום בשני הכיוונים, שילוב מודלי NER בשתי השפות, שימוש בספריית תעתיק (transliteration) , מנהל מערכת וממשק משתמש אינטואיטיבי ונוח, בנוסף אנחנו מציעים שיטת אבלואציה אוטומטית חדשה לתרגום מכונה AI-XSTS. השיטה מבוססת על פרוטוקול הדירוג האנושי XSTS (של Meta) ושואף לדמות ציונים של מדרגים אנושיים ע"י שילוב דירוגים של מודלי LLM יחד עם ציוני Comet. מטרת הפרויקט - מתן מענה לתרגום ברמה גבוהה מאד בין עברית וערבית בניב ישראלי, המאפשר הרצה בסביבה ארגונית סגורה. הההבנה שבשפות מורכבות מורפולוגית כמו עברית וערבית השיטות האוטומטיות להערכה לא נותנות מענה מדויק מספיק הובילו אותנו לנסות ולפתח שיטה אוטומטית שתיתן אינדיקציה על שיפור בתרגומי מודל. בניסויים מול בני אדם נמצאה כי לשיטה שלנו ציון קורלציה דומה לקורלציה בין מתרגמים אנושיים שונים. מה עשינו בפרויקט: אימון מודל: תחילה המטרה שלנו הייתה להביא את מודל התרגום של Opus מערבית לעברית לרמת התרגום של גוגל ולכן ייצרנו סט מקבילי באמצעות google translate על בסיס חומר בערבית ישראלית מהספרייה הלאומית. לאחר מכן, על מנת לשפר ביצועים, אימנו על subset של משפטים מקוריים המתורגמים ע״י בני אדם מתוך הדאטסט Levanti - כ 42K זוגות של משפט בערבית ותרגומו לעברית. מימוש מערכת המכילה את כל הרכיבים הנדרשים למערכת תרגום עצמאית קצה לקצה. כלל הרכיבים כולל מודל התרגום ניתנים להחלפה בקלות בהתאם להתקדמות התחום ויציאת רכיבים טובים יותר בעתיד זיהוי ישויות (NER) - בעברית: https://lnkd.in/dSe48aYX בערבית: https://lnkd.in/dVwhWhfJ תעתיק - gimeltra (ממומשת גם תמיכה ב- translit-me. ניתן להחליף בין החבילות) מנהל מערכת ממשק משתמש AI-XSTS מדובר בשיטת דירוג הבוחנת עד כמה תואם תרגום מסוים את משפט המקור מבחינת ה-accuracy שלו, כלומר עד כמה המידע נשמר בתרגום. אנחנו משתמשים בהגדרה דומה לזו המתוארת במאמר של Meta שפרסם את שיטת ה-XSTS [https://lnkd.in/d67_KQUh]. המדרג שלנו הוא אנסמבל של דירוגים המתקבלים מ-GPT4, cohere ומודל סיווג שאומן על ציוני comet. הערכות אנושיות בחנו את תרגומי המודל אל מול תוצאות גוגל בניסויים עם חמישה מדרגים אנושיים, ואחד לא אנושי, המדרגים האנושיים ביצעו משימת אימון ולאחר מכן משימת דירוג, ללא יכולת להתייעץ זה עם זה במהלכה. המדרגים דירגו את תרגומי גוגל ותרגומי המודל המאומן שלנו (מבלי לדעת מי זה מי). מהניסוי עלה כי המודל שלנו מספק תרגום שקול או טוב יותר מזה של גוגל ב-84% מהמקרים. בנוסף, מניסויים אלו עלה כי המדרג האוטומטי שלנו עומד בקורלציה 0.6 למדרגים האנושיים האחרים, כאשר בינם לבין עצמם הקורלציה נעה בין 0.5 ל-0.7 לריפו שלנו: https://lnkd.in/d3tP_Egf למודלים שלנו: עברית לערבית - https://lnkd.in/dXXqMqFy ערבית לעברית - https://lnkd.in/dKrttzzw בהמשך נפרסם את העבודה שלנו על AI-XSTS! !!!!STAY TUNED Idan Beer Yaron Raz Rotem Sardes  Aviv Peleg Michal Wasserlauf Shay Kaiserman Zahi Kapri Moshe Gotam Romi Swid Tal Geva

dicta-il/dictabert-ner · Hugging Face

dicta-il/dictabert-ner · Hugging Face

huggingface.co

Godwin Josh

Co-Founder of Altrosyn and DIrector at CDTECH | Inventor | Manufacturer

3mo

The integration of XSTS-based evaluation metrics into your platform is a fascinating development, particularly given the inherent complexities of morphologically rich languages like Hebrew and Arabic. Automating the assessment of machine translation quality in such contexts presents unique challenges, and your approach of leveraging LLM outputs alongside Comet scores seems promising. The correlation between your automated metric and human judgments suggests its potential for robust performance evaluation. You talked about in your post. Given the success of AI-XSTS in evaluating accuracy, how would you adapt this framework to assess the nuanced quality of a machine translation system specifically designed for legal documents, where precision regarding terminology and context is paramount? Imagine a scenario where a legal contract needs to be translated from Hebrew to Arabic, with specific clauses requiring precise interpretation. How would you technically leverage AI-XSTS to ensure the accuracy and fidelity of the translated legal text in this highly specialized domain?

Like
Reply
Rami Noah

C.E.O At Noah Technologies A Matrix Company.

3mo

מרשים

Like
Reply

Tal Geva מתוך פרסום של בקבוצת Machine & Deep Learning Israel בפייסבוק. 🙏

Like
Reply
See more comments

To view or add a comment, sign in

Explore topics