Danes se bomo poglobili v TurboScribov prepisovalni pogon, s poudarkom na njegovih treh načinih prepisovanja – Gepard, Delfin in Kit.
Kakšna je razlika med temi 3 načini? Tukaj je kratek povzetek:
Gepard je najhitrejši način. Prepiše 1 uro avdia ali videa v 30 sekundah. Nastavljen je tako, da vam prepis dostavi kar najhitreje.
Delfin zagotavlja zelo visoko natančnost, medtem ko je še vedno zelo hiter. Za prepis 1 ure avdia ali videa potrebuje približno 3 minute.
Kit je nastavljen za maksimalno natančnost. Prepiše 1 uro avdia ali videa v manj kot 10 minutah.
Pri nalaganju datoteke lahko izbirate med katerimkoli od teh 3 načinov ( Kit je privzet).
Katerega bi torej morali izbrati? Priporočamo, da začnete s privzetim (Kit) za maksimalno natančnost in preklopite na Delfina ali Geparda, ko potrebujete prepise še hitreje.
Za tiste, ki želite boljši vpogled v delovanje, lahko berete naprej.
Whisper: Več kot se sliši
Poglejmo si podrobneje Whisper, AI tehnologijo za TurboScribovim prepisovanjem.
Whisper ni samo en AI model; pravzaprav je družina petih modelov, vsak s svojimi kompromisi med natančnostjo in hitrostjo.
Na spodnjem koncu Whisper začne s "tiny" modelom (s "samo" 39 milijoni parametrov) in sega vse do "large" (z 1,55 milijarde parametrov).
"tiny" je najhitrejši, a naredi največ napak. "base" in "small" sta boljša od večine ljudi. "large" je najnatančnejši (primerljiv s profesionalnimi prepisovalci in prevajalci), vendar zahteva veliko spomina in drago strojno opremo.
Whisperjevih 5 modelov
Družina Whisper vsebuje 5 različnih AI modelov:
- tiny — 39 milijonov parametrov
- base — 74 milijonov parametrov (poganja TurboScribov način
Gepard)
- small — 244 milijonov parametrov (poganja TurboScribov način
Delfin)
- medium — 769 milijonov parametrov
- large — 1,55 milijarde parametrov (poganja TurboScribov način
Kit)
Žal, razen če imate posebno zmogljiv računalnik ali imate dostop do močne grafične procesne enote (GPU), bo večina ljudi težko učinkovito poganjala modele, večje od "base".
GPU-ji so skrivnost za hitro prepisovanje avdia. Žal so tudi precej dragi. V času pisanja en Nvidia A100 — čip, ki "poganja tekmo za AI" — stane $6.715,00 na Amazonu.
TurboScribe uporablja GPU-je za znatno pospešitev prepisovanja in več opravljenega dela v krajšem času.
Primerjava časov prepisovanja
Primerjajmo vse TurboScribove načine na našem GPU pognanem prepisovalnem pogonu s prepisovanjem 1-urne avdio datoteke o drugi svetovni vojni.
Gepard
Gepard daje prednost dostavljanju natančnih prepisov pri največji hitrosti, poganja ga 74-milijonski parametrični model "base". Tako izgleda prepisovanje naše 1-urne avdio datoteke:
To je trajalo samo 20 sekund. Z drugimi besedami, je hitro.
Delfin
Delfin s 244 milijoni parametrov potrebuje malo več kot dvakrat toliko časa (kar je še vedno precej hitro):
Kit
Končno, Kit potrebuje približno 3 minute za prepis iste 1-urne avdio datoteke (z ogromnim 1,55-milijardnim parametričnim Whisper modelom "large-v2"):
Upoštevajte, da se časi prepisovanja lahko nekoliko razlikujejo.
Na primer, prepisovanje velike 4GB video datoteke (z 2 urama avdia) bo trajalo malo dlje kot manjša 100MB MP3 datoteka z istima 2 urama avdia — to je predvsem zato, ker moramo porabiti več časa za prenos, analizo, predobdelavo in pretvorbo vaše medijske datoteke, preden dejansko začnemo s prepisovanjem.
Avdio datoteke z malo zaznavnega človeškega govora (pomislite na avdio posnetek z veliko tihimi obdobji) se običajno lahko prepišejo hitreje. Poleg tega je prepisovanje več datotek običajno hitrejše kot prepisovanje ene same datoteke.
Primerjava natančnosti
Pri mnogih običajnih avdio in video datotekah ni razlike med Gepardom,
Delfinom in
Kitom.
Kjer Delfin in
Kit resnično zablestita, je v primerih, kjer so potrebni kontekstualni namigi za razločevanje podobno zvenečih besed.
Na primer, v razsekanem, hitrem pravnem posnetku z veliko šuma v ozadju je bil izraz "Habeas Corpus" napačno preveden kot "happy is porpoise" z Gepardom. Vendar sta na podlagi konteksta okoliškega pogovora (ki je vključeval druge pravne izraze) tako
Delfin kot
Kit pravilno določila, da je "Habeas Corpus" najverjetnejši prepis.
Še en primer: v avdio posnetku se ženska po imenu Kristina Hernandez predstavi in črkuje svoje ime.
Gepard napačno prepiše njeno ime kot "Christina" (namesto "Kristina"):
(Govorec 1) Ime mi je Christina Hernandez. To se črkuje K R I S T I N A H E R N A N D E Z. (Govorec 2) Hvala, Christina.
Delfin napačno prepiše prvo uporabo njenega imena, vendar popravi drugo uporabo izraza (potem ko je črkovala svoje ime):
(Govorec 1) Ime mi je Christina Hernandez. To se črkuje K R I S T I N A H E R N A N D E Z. (Govorec 2) Hvala, Kristina.
Kit dobi obe uporabi pravilno:
(Govorec 1) Ime mi je Kristina Hernandez. To se črkuje K R I S T I N A H E R N A N D E Z. (Govorec 2) Hvala, Kristina.
Izboljšanje natančnosti z metapodatki
Obstajajo primeri, kjer niti človeški prevajalec ne more nedvoumno določiti pravilnega prepisa. Na primer, če Kristina ne bi nikoli črkovala svojega imena, bi bilo nemogoče (samo na podlagi avdia) določiti pravilno črkovanje njenega imena.
Za še večjo izboljšanje natančnosti TurboScribe uporablja metapodatke, priložene avdio in video datotekam, ki jih naložite (kot so ime datoteke, naslov in opis) za avtomatsko izboljšanje prepisov izrazov, ki jih ni mogoče nedvoumno določiti samo na podlagi avdia.
Na primer, če metapodatki MP3 naslova, izvajalca ali komentarja omenjajo "Kristina Hernandez", je pri vseh 3 načinih veliko bolj verjetno, da bodo pravilno prepisali njeno ime.
Zaključek
Povzeto, TurboScribe ponuja tri načine prepisovanja:
Gepard zagotavlja natančne prepise kar najhitreje.
Delfin stremi k popolnemu ravnovesju med natančnostjo in hitrostjo.
Kit maksimizira natančnost, vendar vzame malo več časa. Je TurboScribov privzeti način.
Najboljši način za resnično razumevanje njihovih zmogljivosti je, da jih preizkusite sami. Začnite brezplačno in prepišite do 4 avdio ali video datoteke brezplačno vsak dan.

