Šiandien gilinsimės į TurboScribe transkripcijos variklį, koncentruodamiesi į tris transkripcijos režimus – Gepardą, Delfiną ir Banginį.
Kuo skiriasi šie 3 režimai? Štai trumpai:
Gepardas yra greičiausias režimas. Jis transkribuoja 1 valandą garso ar vaizdo per 30 sekundžių. Jis pritaikytas pateikti transkripciją kuo greičiau.
Delfinas užtikrina labai didelį tikslumą, išlikdamas labai greitas. Jam prireikia maždaug 3 minučių transkribuoti 1 valandą garso ar vaizdo.
Banginis yra pritaikytas maksimaliam tikslumui. Jis transkribuoja 1 valandą garso ar vaizdo per mažiau nei 10 minučių.
Įkeliant failą, galite rinktis bet kurį iš šių 3 režimų ( Banginis yra numatytasis).
Taigi, kurį turėtumėte pasirinkti? Rekomenduojame pradėti nuo numatytojo (Banginio) maksimaliam tikslumui ir perjungti į Delfiną ar Gepardą, kai reikia transkribcijų dar greičiau.
Tiems, kurie nori geriau suprasti, kas vyksta po gaubtu, kviečiame skaityti toliau.
Whisper: Daugiau nei girdima
Pažvelkime atidžiau į Whisper, dirbtinio intelekto technologiją, kuri slypi už TurboScribe transkripcijos.
Whisper nėra tik vienas DI modelis; iš tiesų tai penkių modelių šeima, kur kiekvienas turi skirtingą tikslumą ir greitį.
Žemiausiame lygyje Whisper pradeda nuo "tiny" modelio (su "tik" 39 milijonais parametrų) ir siekia iki "large" (su 1,55 milijardo parametrų).
"tiny" yra greičiausias, bet daro daugiausia klaidų. "base" ir "small" yra geresni nei dauguma žmonių. "large" yra tiksliausias (prilygsta profesionaliems transkribuotojams ir vertėjams), bet reikalauja daug atminties ir brangios aparatinės įrangos.
5 Whisper modeliai
Whisper šeimą sudaro 5 skirtingi DI modeliai:
- tiny — 39 milijonai parametrų
- base — 74 milijonai parametrų (varo TurboScribe
Gepardo režimą)
- small — 244 milijonai parametrų (varo TurboScribe
Delfino režimą)
- medium — 769 milijonai parametrų
- large — 1,55 milijardo parametrų (varo TurboScribe
Banginio režimą)
Deja, jei neturite ypač galingo kompiuterio ar prieigos prie galingos GPU (vaizdo apdorojimo procesoriaus), daugumai žmonių bus sunku efektyviai paleisti modelius, didesnius nei "base".
GPU yra paslaptis, leidžianti transkribuoti garsą greitai. Deja, jie taip pat yra gana brangūs. Šiuo metu vienas Nvidia A100 — lustas "variantis DI lenktynes" — kainuoja $6,715.00 "Amazon" svetainėje.
TurboScribe naudoja GPU, kad žymiai pagreitintų transkripciją ir atliktų daugiau darbo greičiau.
Transkripcijos laiko palyginimas
Palyginkime kiekvieną TurboScribe režimą mūsų GPU varomame transkripcijos variklyje, transkribuojant 1 valandos garso failą apie Antrąjį pasaulinį karą.
Gepardas
Gepardas prioritetą teikia tikslių transkripcijų pateikimui maksimaliu greičiu, varomas 74 milijonų parametrų "base" modelio. Štai kaip atrodo mūsų 1 valandos garso failo transkripcija:
Tai užtruko tik 20 sekundžių. Kitaip tariant, tai greita.
Delfinas
Delfinas, su 244 milijonais parametrų, užtrunka šiek tiek daugiau nei dvigubai ilgiau (kas vis tiek yra gana greitai):
Banginis
Galiausiai, Banginiui prireikia apie 3 minučių transkribuoti tą patį 1 valandos garso failą (su milžinišku 1,55 milijardo parametrų Whisper "large-v2" modeliu):
Atminkite, kad transkripcijos laikas gali šiek tiek skirtis.
Pavyzdžiui, didelio 4GB vaizdo failo (su 2 valandomis garso) transkripcija užtruks šiek tiek ilgiau nei mažesnio 100MB MP3 failo su tomis pačiomis 2 valandomis garso – tai daugiausia dėl to, kad turime praleisti daugiau laiko perkeliant, analizuojant, apdorojant ir konvertuojant jūsų medijos failą prieš pradedant transkripciją.
Garso failai su mažai aptinkamos žmogaus kalbos (pavyzdžiui, garso įrašas su daug tylių periodų) paprastai gali būti transkribuojami greičiau. Be to, kelių failų transkripcija taip pat paprastai yra greitesnė nei vieno failo.
Tikslumo palyginimas
Daugeliui įprastų garso ir vaizdo failų nėra skirtumo tarp Gepardo,
Delfino ir
Banginio.
Delfinas ir
Banginis iš tikrųjų išsiskiria tais atvejais, kai reikia kontekstinių užuominų, norint atskirti panašiai skambančius žodžius.
Pavyzdžiui, trūkinėjančiame, greito tempo teisiniame įraše su dideliu foniniu triukšmu, terminas "Habeas Corpus" buvo neteisingai išverstas kaip "happy is porpoise" naudojant Gepardą. Tačiau, remiantis aplinkinės pokalbio kontekstu (kuriame buvo kitų teisinių terminų), tiek
Delfinas, tiek
Banginis teisingai nustatė, kad "Habeas Corpus" yra labiausiai tikėtina transkripcija.
Štai dar vienas pavyzdys: garso įraše moteris vardu Kristina Hernandez prisistato ir parašo savo vardą.
Gepardas neteisingai transkribuoja jos vardą kaip "Christina" (vietoj "Kristina"):
(1 kalbėtojas) Mano vardas yra Christina Hernandez. Tai parašoma K R I S T I N A H E R N A N D E Z. (2 kalbėtojas) Ačiū, Christina.
Delfinas neteisingai transkribuoja pirmąjį jos vardo pavartojimą, bet pataiso antrą termino pavartojimą (po to, kai ji parašo savo vardą):
(1 kalbėtojas) Mano vardas yra Christina Hernandez. Tai parašoma K R I S T I N A H E R N A N D E Z. (2 kalbėtojas) Ačiū, Kristina.
Banginis teisingai atpažįsta abu pavartojimus:
(1 kalbėtojas) Mano vardas yra Kristina Hernandez. Tai parašoma K R I S T I N A H E R N A N D E Z. (2 kalbėtojas) Ačiū, Kristina.
Tikslumo gerinimas naudojant metaduomenis
Yra atvejų, kai net žmogus vertėjas negali vienareikšmiškai nustatyti teisingos transkripcijos. Pavyzdžiui, jei Kristina niekada nebūtų parašiusi savo vardo, būtų neįmanoma (remiantis vien tik garsu) nustatyti teisingą jos vardo rašybą.
Norėdamas dar labiau pagerinti tikslumą, TurboScribe naudoja metaduomenis, pridėtus prie įkeliamų garso ir vaizdo failų (pavyzdžiui, failo pavadinimą, antraštę ir aprašymą), kad automatiškai pagerintų terminų, kurių negalima vienareikšmiškai nustatyti remiantis vien garsu, transkripciją.
Pavyzdžiui, jei MP3 metaduomenų pavadinime, atlikėjo lauke ar komentare minima "Kristina Hernandez", visi 3 režimai daug labiau linkę teisingai transkribuoti jos vardą.
Apibendrinant
Apibendrinant, TurboScribe siūlo tris transkripcijos režimus:
Gepardas pateikia tikslias transkripcijas kuo greičiau.
Delfinas siekia tobulos pusiausvyros tarp tikslumo ir greičio.
Banginis maksimizuoja tikslumą, bet užtrunka šiek tiek ilgiau. Tai TurboScribe numatytasis režimas.
Geriausias būdas iš tikrųjų suprasti jų galimybes – išbandyti juos patiems. Pradėkite nemokamai ir transkribuokite iki 4 garso ar vaizdo failų nemokamai kiekvieną dieną.

