ארכיון הקטגוריה: כלי תרגום

מדור כלי תרגום סוקר כמה כלי תרגום שיכולים להיות לעזר למתרגמים – במיוחד כלי קוד פתוח חינמיים.

OT ver MmQ – Chapter-3: Leveraging Legacy

Very often, your projects are completely unique, so you start from scratch and begin chugging away.
Sometimes however, you have a TM from a previous similar project, so you can just plug it in and start translating.
And sometimes, a client provides you with previously translated documents that you may be able to use if you can covert them into a TM.
This is essentially a time consuming effort, so make sure that it is worth you time.

OmegaT does not have a native aligner, so we will use another CAT tool called Felix.

OT ver MmQ – Chapter-1: Setting up a project

This is the first in a series of tutorials dealing with translation workflows using the OmegaT and the MemoQ CAT tools.

In this project I will translate a Hebrew document into English, using both tools in parallel.

Stage 1:

Looking at the document

At the first stage, we just look at the document. It's a .docx file, so both CAT tools shouldn't have a problem with it, and the formatting is pretty neat. We would like to have the same formatting in the target file.

Firing up a project

We now open a project in OmegaT and a project in MemoQ in parallel.

Both tools require us to establish a directory for the project files,  define the source and target languages and load the documents.

 

Looking at the file structure

Now we look at the OmegaT and MemoQ file structure. OmegaT has created a complete directory and sub-directory structure for all aspects of the project:

These sub-directories are named after their contents, and it is now up to the translator to place appropriate files within them: dictionaries and glossaries, source and  document and legacy TMs.  OmegaT will eventually fill the "target" directory with the translation target and the omegat directory with the project's TM.

MemoQ on the other hand created two directories, one for its TM and one for the project, with a translation documents sub-directory. It may be seen that both tools created copies of the original document.

 

As regards comparison:


Feature OmegaT MemoQ
Tag Forest Large problematic tag forest Sparse tag forest
File structure Complete and obvious Partial and hidden

 

Dealing with the OmegaT tag-forest problem

When we load the .docx into OmegaT we see a large tag "forest" that makes translating difficult.

Browsing the internet, it turns out that this problem is common to a number of translation tools and has to do with the structure of the docx file, so much so that David Turner has created a CodeZapper just to get rid of docx hidden tags. He describes his program thus:

"CodeZapper" is a set of Word VBA macros designed to “clean up” Word files before being imported into a standalone translation environment (DVX, memoQ, SDL Studio, TagEditor, Swordfish, OmegaT, Wordfast Pro, etc.).
Word documents are often strewn with “rogue codes” or junk tags (so-called “smart tags”, language tags, track changes tags, spellchecker tags, soft hyphenations, scaling and spacing changes, redundant bookmarks, etc.).
This tagged information shows up in the translation grid as spurious codes{1}around{2}, or even in the mid{3}dle of, words, making sentences difficult to read and translate and generally negating many of the productivity benefits of the program.

So we will now try to "cure" the .docx file in such a way as to enable its import into OmegaT without tags. However, since the combination of Hebrew and English requires certain bidi codes, we had best tread carefully and try more than one way of preparing the same document.
The methods we have used are:
1.An .odt transformation method, where we first saved the .docx file as a 2003 .doc file. then opened the .doc file with OpenOffice then saved it as .odt. We loaded the .odt file into OmegaT and most of the tag forest was gone.
2. The CodeZapper method, where we used David Turner's CodeZapper Macro on the file and saved it again as .docx. This file too, when loaded did not display many tags in OmegaT.
So it seems both methods solve the problem. However, the proof of the pudding is in the eating, and we will not know if this method is applicable to files with bidi codes that intermix both English and Hebrew before we complete the translation.

 

טוקנייזרים

כדי למצות את אפשרויות המונחונים – רצוי להתקין טוקנזייר – שידע לאבחן את השורשים ולהציג את המונחים גם עבור הטיות שונות. הטוקנייזר מתייחס לשפת המקור.

השפות הזמינות כרגע הן:

org.omegat.plugins.tokenizer.LuceneArabicTokenizer
org.omegat.plugins.tokenizer.LuceneBrazilianTokenizer
org.omegat.plugins.tokenizer.LuceneChineseTokenizer
org.omegat.plugins.tokenizer.LuceneCJKTokenizer
org.omegat.plugins.tokenizer.LuceneCzechTokenizer
org.omegat.plugins.tokenizer.LuceneDutchTokenizer
org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
org.omegat.plugins.tokenizer.LuceneGermanTokenizer
org.omegat.plugins.tokenizer.LuceneGreekTokenizer
org.omegat.plugins.tokenizer.LucenePersianTokenizer
org.omegat.plugins.tokenizer.LuceneSmartChineseTokenizer
org.omegat.plugins.tokenizer.LuceneRussianTokenizer
org.omegat.plugins.tokenizer.LuceneThaiTokenizer
org.omegat.plugins.tokenizer.SnowballDanishTokenizer
org.omegat.plugins.tokenizer.SnowballDutchTokenizer
org.omegat.plugins.tokenizer.SnowballEnglishTokenizer
org.omegat.plugins.tokenizer.SnowballFinnishTokenizer
org.omegat.plugins.tokenizer.SnowballFrenchTokenizer
org.omegat.plugins.tokenizer.SnowballGerman2Tokenizer
org.omegat.plugins.tokenizer.SnowballGermanTokenizer
org.omegat.plugins.tokenizer.SnowballHungarianTokenizer
org.omegat.plugins.tokenizer.SnowballItalianTokenizer
org.omegat.plugins.tokenizer.SnowballNorwegianTokenizer
org.omegat.plugins.tokenizer.SnowballPorterTokenizer
org.omegat.plugins.tokenizer.SnowballPortugueseTokenizer
org.omegat.plugins.tokenizer.SnowballRomanianTokenizer
org.omegat.plugins.tokenizer.SnowballRussianTokenizer
org.omegat.plugins.tokenizer.SnowballSpanishTokenizer
org.omegat.plugins.tokenizer.SnowballSwedishTokenizer
org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

לגבי טוקנייזר עברית – קיבלתי הצעה של 200 אירו ממפתחי אומגה-טי, כדי להוסיף אפשרות זו. אני חוסך לקראת זה. אם אתם מעוניינים לתרום לפרויקט זה, כתבו לי מייל.

כלי תרגום חופשיים

הכותרת של כלי העריכה החופשי notepad++ קובעת: free as in free speech, free as in free beer

כלומר: החירות להשתמש בתוכנה כמוצר, כעצם, והחירות לשנותה וליצור אותה בעצמך כתהליך, כאמצעי הבעה, ככלי לשינוי וכו'.

כלי תרגום ידועים במחירם הגבוה ובחירות המיוחדת שנוטים מפתחיהם לשנותם ללא הודעה מראש, ולהיעלם כאשר מופיעים כל מיני תקלות, (אותם הם לא הזכירו כלל כאשר רכשתם את התוכנה) במיוחד כלי מוביל אחד וידוע לשימצה שכולם מכירים היטב, אך לא נזכיר כאן בשום אופן את שמו.

אומגה-טי הוא כלי תרגום חופשי ואתם מוזמנים להשתתף ביצירתו ובשכלולו.

מילונים באינטרנט

מספר אתרים מועילים להורדת מילונים:

מילוני בבילון באנגלית

מילוני בבילון דו-לשוניים

מילונים מגוונים (כגון, אנגלית אינדונזית וכגון אלה) ועוד כמה מגוונים (אך מצאתי שם אנגלית לטינית, ומונחי מחשב לסביבת לינקוס).

מילונים מקצועיים באנגלית בפורמט XDXF

מדריך לאומגה-טי – הכנות

החלטתי לקפוץ למים דווקא עם קובץ מסוג .ini שהוא מלא בכל מיני תגיות שאין לתרגם.
MenuSpecialTag=Insert &Special Tag
MenuFormatTag=Insert &Format Tag
MenuSendCommand=Send &Command
MenuFindText=F&ind Text…
MenuOverrideFmt=O&verride Contact's Font

מאחר ואומגה-טי משתבחת בהתאמתה לסוג זה של קובץ, נראה לי שיש כאן אתגר ראוי.
אחרי כמה גישושי ניסוי וטעייה, ובעיקר בעיות של קידוד (החלקים המתורגמים בקובץ הסופי, שאמורים היו להיות בעברית, הופיעו כסימני שאלה בלבד), הגעתי לשלבים הבאים בהפעלת תוכנת אומגה-T

שלב א:
הכנת הפרוייקט.
1) פתיחת פרוייקט חדש – project – new
2) התוכנה תפתח לכם חלון לדיסק ועליכם לבחור מיקום לפרוייקט ולתת לו שם.


יצירת תיקית פרויקט

במקרה זה, בחרתי לקרוא לתיקיית הפרוייקט:

FIRS-OMEGA-T

מרגע שבחרתם את השם, התוכנה, תציג לכם את מבנה התיקיות של הפרוייקט ותיתן לכם אפשרות להגדיר את שפות התרגום

כפי שאתם רואים להלן, הגדרתי אנגלית – עברית, והתוכנה יצרה אוטומטית תיקיות משנה בתוך תיקיית הפרוייקט:

לכל תיקייה יש תפקיד משלה:

Source היא התיקיה בה יש לשים את קובץ המקור המיועד לתרגום

tm היא התיקיה בה יש לשים את זכרון התרגום – כלומר קבצים שתרגמתם בעבר

Glossary היא התיקיה בה יש לשים רשימות מילים ומונחונים רלוונטים לתחום הנושא של החומר המתרגום.

Dictionary היא התיקיה לתוכה יש להכניס מילון כדי לבדוק איות

Target היא התיקיה בה תמצאו את הקובץ המתורגם בסוף העבודה


מבנה תיקיות הפרוייקט

1)      אחרי שהתיקיות מוכנות לעבודה.יש להגדיר למערכת כיצד לעבוד עם הקבצים (כדי למנוע את הבעיה עם סימני השאלה). כנסו ל-option – file filter ותראו רשימה שלמה של הקבצים שהתוכנה מסוגלת לקרוא ולהוציא מהם רק את המחרוזות המיועדות לתרגום. לדעתי, אחרי כל מיני ייסורים שעברתי בזמנו עם ההתאמות של טרדוס, זה מרשים מאוד.

במקרה זה, החלטתי להתמקד אך ורק בהגדרת הקובץ בו עסקינן בעל הסיומות .ini, ולכן השארתי רק את זה מסומן.


קבצים שאומגה טי מסוגלת לקרוא

עכשיו לחצו על edit ואחר כך שוב edit

ותקבלו את המסך הבא, ובוא האפשרות להגדיר עבור קבצים בעלי סיומת .ini את הפורמט של קובץ המקור המיועד לתרגום, ואת זה של קובץ היעד המתורגם. את האמת, ממש התרגשתי מהאלגנטיות של הסידור הזה, ובחרתי אוטומט עבור קובץ המקור (למעשה התוכנה החביבה Notepad++ שזהו קידוד מוזר בשם "UCS-2 אינידיאני קטן" (מאיפה הם מביאים את השמות האלה) – בקיצור, לא רציתי להסתבך אז הלכתי על אוטומט). אחר כך קבעתי את UTF-8 האוניברסאלי והטוב כקידוד של הקובץ המתורגם – מתאים גם לעברית מודרנית למהדרין – חוצה דפדפנים ושאר מחסומים אלקטרוניים.


התאמת הקידוד למקור וליעד

כשתחזרו מה-edit יוצג לכם המסך סיכום של פעולותיכם עבור קבצי .ini


הקידודים הנבחרים – מקור ויעד

מרגיע ומצוין.

הסתיימו ההכנות, הגיעה העת לגשת למלאכת התרגום עצמה.

תכונות אומגה-טי

אומגה-טי מציעה את התכונות הבאות:

  • רצה בכל סביבה תומכת ג'אווה
  • ניתן להשתמש בכל קובץ TMX כחומר רקע לתרגום.
  • ניתן לחלק באופן גמיש למשפטים (סגמנטציה)
  • ניתן לבצע חיפושים בזכרונות התרגום
  • התאמת "פאזי" – איך מתרגמים את זה? אתגר למתרגם – התאמת "טישטוש"?, למעשה מדובר בהתאמה חלקית.
  • תמיכה בבדיקות על פי רשימות מילים
  • תמיכה בבודקי איות קוד-פתוח
  • תמיכה במילוני StarDict (מה זה)?
  • תמיכה בשירותי התרגום של גוגל – אוי ויי, יגורנו מגוגל…

התוכנה תומכת במגוון פורמטים.

לטעמי, נשמע ממש טוב, אז קדימה לעבודה.

כלי תרגום

פעם היה המתרגם יושב עם הדף ומקליד לו בנחת לתוך וורד. כך היה, וגם היום ישנם מתרגמים רבים העובדים כך.

אלא שפרילנסים שצריכים להתפרנס מתרגום, מחפשים תמיד דרכים לייעל את העבודה, כדי להפיק תרגומים פחות איכותיים בפחות זמן.

כלי התרגום מאפשרים לקדם מטרות אלה באופן משמעותי.

השימוש במערכת ניהול מונחים מאפשרת להבטיח עקביות מירבית במונחי התרגום, וזכרון התרגום מאפשר מינוף של תרגומים קודמים כדי לחסוך זה.

בין כלי התרגום ניתן למנות את:

טרדוס, וורדפסט, ואומגה טי

אומגה טי – היכרות והתקנה

בעקבות סקירה האינטרנטית של כלי תרגום ממוחשבים (CAT) החלטתי לנסות להתקין ולהשתמש בתוכנה הקוד הפתוח הנקראת Omega-T.

המדריך למתחילים שקראתי הצביע על תוכנה פשוטה להפעלה, שיש בה את התכונות המרכזיות של תוכנות CAT – דהיינו זכרון תרגום – האוגר את כל תרגומי העבר, יכולת עבודה עם תגיות ועם סוגים שונים של פורמטים, ואפשרות לעבוד עם רשימות מילים.

למי שרוצה להתרשם, ניתן למצוא את המדריך למתחילים (באנגלית) כאן: מדריך אומגה-טי למתחילים.

ולמי שמעדיף לצפות בהדרכה קצרה באנגלית, יכול לצפות בסרטון: מבוא לאומגה-טי.

ובכן, מסתבר שאומגה טי אינה עובדת ישירות עם MS WORD ולכן יש להתקין את אופן-אופיס כדי להמיר בין התוכנות.

אחרי שאופן אופיס הותקן, ניגשתי להוריד את אומגה-טי. התברר שיש גרסאות שונות ומשונות. אני מצרף כאן את הלינק לגרסה הסטנדרטית והיציבה ביותר לחלונות: אומגה טי להורדה.

בעת ההתקנה, שמחתי לראות שיש מימשק בעברית. זה מבטיח טובות לגבי יכולת התוכנה לעבוד עם אנגלית ועברית גם יחד.

השלב הבא: מתחילים לעבוד עם אומגה טי.