מצבי התמלול, הסבר מפורט

היום, נעמיק בחקר מנוע התמלול של TurboScribe, ונתמקד בשלושת מצבי התמלול שלו – צ'יטה, דולפין ולווייתן.

מה ההבדל בין 3 המצבים האלה? הנה התקציר:

צ'יטה הוא המצב המהיר ביותר. הוא מתמלל שעה של אודיו או וידאו תוך 30 שניות. הוא מכוון לספק לך תמליל במהירות המרבית.
דולפין מספק דיוק גבוה מאוד, תוך שמירה על מהירות גבוהה. לוקח לו כ-3 דקות לתמלל שעה של אודיו או וידאו.
לווייתן מכוון לדיוק מקסימלי. הוא מתמלל שעה של אודיו או וידאו בפחות מ-10 דקות.

בעת העלאת קובץ, תוכל לבחור בין כל אחד משלושת המצבים האלה ( לווייתן הוא ברירת המחדל).

אז באיזה מצב כדאי לבחור? אנו ממליצים להתחיל עם ברירת המחדל (לווייתן) לדיוק מרבי ולעבור לדולפין או צ'יטה כשאתם זקוקים לתמלילים מהר יותר.

למי מכם שרוצה להבין טוב יותר מה קורה מאחורי הקלעים, מוזמנים להמשיך לקרוא.

Whisper: יותר ממה שנראה לעין

בואו נבחן מקרוב את Whisper, טכנולוגיית ה-AI שמאחורי התמלול של TurboScribe.

Whisper אינו רק מודל AI בודד; למעשה זו משפחה של חמישה מודלים, שכל אחד מהם מאזן בין דיוק למהירות.

בקצה התחתון, Whisper מתחיל עם המודל "tiny" (עם "רק" 39 מיליון פרמטרים) ומגיע עד ל-"large" (עם 1.55 מיליארד פרמטרים).

"tiny" הוא המהיר ביותר, אך עושה הכי הרבה שגיאות. "base" ו-"small" טובים יותר מרוב בני האדם. "large" הוא המדויק ביותר (בר השוואה למתמללים ומתרגמים מקצועיים), אך דורש הרבה זיכרון וחומרה יקרה.

חמשת המודלים של Whisper

משפחת Whisper מכילה 5 מודלי AI שונים:

tiny — 39 מיליון פרמטרים
base — 74 מיליון פרמטרים (מפעיל את מצב צ'יטה של TurboScribe)
small — 244 מיליון פרמטרים (מפעיל את מצב דולפין של TurboScribe)
medium — 769 מיליון פרמטרים
large — 1.55 מיליארד פרמטרים (מפעיל את מצב לווייתן של TurboScribe)

למרבה הצער, אלא אם כן יש לך מחשב חזק במיוחד או גישה ל-GPU (יחידת עיבוד גרפי) חזקה, רוב האנשים יתקשו להפעיל ביעילות את רוב המודלים הגדולים יותר מ-"base".

GPU הם הסוד לתמלול אודיו מהיר. למרבה הצער, הם גם יקרים מאוד. נכון לכתיבת שורות אלה, שבב Nvidia A100 בודד — השבב "שמניע את מירוץ ה-AI" — עולה $6,715.00 באמזון.

TurboScribe משתמש ב-GPU כדי להאיץ משמעותית את התמלול ולבצע יותר, מהר יותר.

השוואת זמני תמלול

בואו נשווה בין כל אחד ממצבי TurboScribe במנוע התמלול מבוסס ה-GPU שלנו על ידי תמלול קובץ אודיו באורך שעה אחת על מלחמת העולם השנייה.

צ'יטה

צ'יטה נותן עדיפות לאספקת תמלילים מדויקים במהירות מרבית, מופעל על ידי מודל "base" עם 74 מיליון פרמטרים. הנה איך נראה תמלול קובץ האודיו שלנו באורך שעה:

זה לקח רק 20 שניות. במילים אחרות, זה מהיר.

דולפין

דולפין, עם 244 מיליון פרמטרים, לוקח קצת יותר מפי שניים זמן (שזה עדיין די מהיר):

לווייתן

לבסוף, לווייתן לוקח כ-3 דקות לתמלל את אותו קובץ אודיו באורך שעה (עם מודל Whisper "large-v2" העצום בעל 1.55 מיליארד פרמטרים):

שימו לב שזמני התמלול יכולים להשתנות מעט.

לדוגמה, תמלול קובץ וידאו גדול של 4GB (עם שעתיים של אודיו) ייקח קצת יותר זמן מאשר קובץ MP3 קטן יותר של 100MB עם אותן שעתיים של אודיו — זה בעיקר בגלל שאנחנו צריכים להשקיע יותר זמן בהעברה, ניתוח, עיבוד מקדים והמרה של קובץ המדיה שלך לפני שאנחנו מתחילים בתמלול עצמו.

קבצי אודיו עם מעט דיבור אנושי מזוהה (חשבו על הקלטת אודיו עם הרבה תקופות שקטות) בדרך כלל ניתנים לתמלול מהר יותר. יתר על כן, תמלול של מספר קבצים הוא בדרך כלל מהיר יותר מתמלול קובץ בודד.

השוואת דיוק

עבור קבצי אודיו ווידאו נפוצים רבים, אין הבדל בין צ'יטה, דולפין, ו- לווייתן.

היתרון של דולפין ו- לווייתן בולט במקרים בהם נדרשים רמזים הקשריים כדי להבחין בין מילים שנשמעות דומה.

לדוגמה, בהקלטה משפטית מקוטעת ומהירה עם רמות גבוהות של רעש רקע, המונח "Habeas Corpus" תורגם בטעות ל-"happy is porpoise" עם צ'יטה. עם זאת, בהתבסס על ההקשר של השיחה הסובבת (שכללה מונחים משפטיים אחרים), גם דולפין וגם לווייתן קבעו נכון ש-"Habeas Corpus" הוא התמלול הסביר ביותר.

הנה דוגמה נוספת: בהקלטת אודיו, אישה בשם קריסטינה הרננדז מציגה את עצמה ומאייתת את שמה.

צ'יטה מתמלל בטעות את שמה כ-"כריסטינה" (במקום "קריסטינה"):

(דובר 1) שמי כריסטינה הרננדז. זה מאוית K R I S T I N A H E R N A N D E Z. (דובר 2) תודה, כריסטינה.

דולפין מתמלל בטעות את השימוש הראשון בשמה, אך מתקן את השימוש השני במונח (לאחר שהיא מאייתת את שמה):

(דובר 1) שמי כריסטינה הרננדז. זה מאוית K R I S T I N A H E R N A N D E Z. (דובר 2) תודה, קריסטינה.

לווייתן מצליח בשני השימושים:

(דובר 1) שמי קריסטינה הרננדז. זה מאוית K R I S T I N A H E R N A N D E Z. (דובר 2) תודה, קריסטינה.

שיפור הדיוק עם מטא-דאטה

ישנם מקרים בהם אפילו מתרגם אנושי לא יכול לקבוע באופן חד משמעי את התמלול הנכון. לדוגמה, אם קריסטינה מעולם לא הייתה מאייתת את שמה, היה בלתי אפשרי (על סמך האודיו בלבד) לקבוע את האיות הנכון של שמה.

כדי לשפר את הדיוק עוד יותר, TurboScribe משתמש במטא-דאטה המצורף לקבצי אודיו ווידאו שאתם מעלים (כמו שם הקובץ, כותרת ותיאור) כדי לשפר אוטומטית תמלולים של מונחים שלא ניתן לקבוע באופן חד משמעי על סמך האודיו בלבד.

לדוגמה, אם כותרת ה-MP3, האמן או ההערה במטא-דאטה מתייחסים ל-"קריסטינה הרננדז", כל 3 המצבים יותר סביר שיתמללו את שמה נכון.

לסיכום

לסיכום, TurboScribe מציע שלושה מצבי תמלול:

צ'יטה מספק תמלולים מדויקים במהירות המרבית האפשרית.
דולפין שואף לאיזון המושלם בין דיוק למהירות.
לווייתן ממקסם את הדיוק, אך לוקח קצת יותר זמן. זהו מצב ברירת המחדל של TurboScribe.

הדרך הטובה ביותר להבין באמת את היכולות שלהם היא לנסות אותם בעצמכם. התחילו בחינם ותמללו עד 4 קבצי אודיו או וידאו בחינם כל יום.

TurboScribe