PrijavaRegistracija
TurboScribe modes banner

Načini prepisovanja, razloženo

23. avgust 2023
Leif Foged
Leif Foged

Danes se bomo poglobili v TurboScribov prepisovalni pogon, s poudarkom na njegovih treh načinih prepisovanja – Gepard, Delfin in Kit.

Kakšna je razlika med temi 3 načini? Tukaj je kratek povzetek:

  • 🐆 Gepard je najhitrejši način. Prepiše 1 uro avdia ali videa v 30 sekundah. Nastavljen je tako, da vam prepis dostavi kar najhitreje.
  • 🐬 Delfin zagotavlja zelo visoko natančnost, medtem ko je še vedno zelo hiter. Za prepis 1 ure avdia ali videa potrebuje približno 3 minute.
  • 🐳 Kit je nastavljen za maksimalno natančnost. Prepiše 1 uro avdia ali videa v manj kot 10 minutah.

Pri nalaganju datoteke lahko izbirate med katerimkoli od teh 3 načinov (🐳 Kit je privzet).

Katerega bi torej morali izbrati? Priporočamo, da začnete s privzetim (Kit) za maksimalno natančnost in preklopite na Delfina ali Geparda, ko potrebujete prepise še hitreje.

Za tiste, ki želite boljši vpogled v delovanje, lahko berete naprej.

Whisper: Več kot se sliši

Audio waves

Poglejmo si podrobneje Whisper, AI tehnologijo za TurboScribovim prepisovanjem.

Whisper ni samo en AI model; pravzaprav je družina petih modelov, vsak s svojimi kompromisi med natančnostjo in hitrostjo.

Na spodnjem koncu Whisper začne s "tiny" modelom (s "samo" 39 milijoni parametrov) in sega vse do "large" (z 1,55 milijarde parametrov).

"tiny" je najhitrejši, a naredi največ napak. "base" in "small" sta boljša od večine ljudi. "large" je najnatančnejši (primerljiv s profesionalnimi prepisovalci in prevajalci), vendar zahteva veliko spomina in drago strojno opremo.

Whisperjevih 5 modelov

Družina Whisper vsebuje 5 različnih AI modelov:

  • tiny — 39 milijonov parametrov
  • base — 74 milijonov parametrov (poganja TurboScribov način 🐆 Gepard)
  • small — 244 milijonov parametrov (poganja TurboScribov način 🐬 Delfin)
  • medium — 769 milijonov parametrov
  • large — 1,55 milijarde parametrov (poganja TurboScribov način 🐳 Kit)

Žal, razen če imate posebno zmogljiv računalnik ali imate dostop do močne grafične procesne enote (GPU), bo večina ljudi težko učinkovito poganjala modele, večje od "base".

GPU-ji so skrivnost za hitro prepisovanje avdia. Žal so tudi precej dragi. V času pisanja en Nvidia A100 — čip, ki "poganja tekmo za AI" — stane $6.715,00 na Amazonu.

TurboScribe uporablja GPU-je za znatno pospešitev prepisovanja in več opravljenega dela v krajšem času.

Primerjava časov prepisovanja

Primerjajmo vse TurboScribove načine na našem GPU pognanem prepisovalnem pogonu s prepisovanjem 1-urne avdio datoteke o drugi svetovni vojni.

🐆 Gepard

Gepard daje prednost dostavljanju natančnih prepisov pri največji hitrosti, poganja ga 74-milijonski parametrični model "base". Tako izgleda prepisovanje naše 1-urne avdio datoteke:

To je trajalo samo 20 sekund. Z drugimi besedami, je hitro.

🐬 Delfin

Delfin s 244 milijoni parametrov potrebuje malo več kot dvakrat toliko časa (kar je še vedno precej hitro):

🐳 Kit

Končno, Kit potrebuje približno 3 minute za prepis iste 1-urne avdio datoteke (z ogromnim 1,55-milijardnim parametričnim Whisper modelom "large-v2"):

Upoštevajte, da se časi prepisovanja lahko nekoliko razlikujejo.

Na primer, prepisovanje velike 4GB video datoteke (z 2 urama avdia) bo trajalo malo dlje kot manjša 100MB MP3 datoteka z istima 2 urama avdia — to je predvsem zato, ker moramo porabiti več časa za prenos, analizo, predobdelavo in pretvorbo vaše medijske datoteke, preden dejansko začnemo s prepisovanjem.

Avdio datoteke z malo zaznavnega človeškega govora (pomislite na avdio posnetek z veliko tihimi obdobji) se običajno lahko prepišejo hitreje. Poleg tega je prepisovanje več datotek običajno hitrejše kot prepisovanje ene same datoteke.

Primerjava natančnosti

Pri mnogih običajnih avdio in video datotekah ni razlike med 🐆 Gepardom, 🐬 Delfinom in 🐳 Kitom.

Kjer 🐬 Delfin in 🐳 Kit resnično zablestita, je v primerih, kjer so potrebni kontekstualni namigi za razločevanje podobno zvenečih besed.

Na primer, v razsekanem, hitrem pravnem posnetku z veliko šuma v ozadju je bil izraz "Habeas Corpus" napačno preveden kot "happy is porpoise" z 🐆 Gepardom. Vendar sta na podlagi konteksta okoliškega pogovora (ki je vključeval druge pravne izraze) tako 🐬 Delfin kot 🐳 Kit pravilno določila, da je "Habeas Corpus" najverjetnejši prepis.

Še en primer: v avdio posnetku se ženska po imenu Kristina Hernandez predstavi in črkuje svoje ime.

🐆 Gepard napačno prepiše njeno ime kot "Christina" (namesto "Kristina"):

(Govorec 1) Ime mi je Christina Hernandez. To se črkuje K R I S T I N A H E R N A N D E Z. (Govorec 2) Hvala, Christina.

🐬 Delfin napačno prepiše prvo uporabo njenega imena, vendar popravi drugo uporabo izraza (potem ko je črkovala svoje ime):

(Govorec 1) Ime mi je Christina Hernandez. To se črkuje K R I S T I N A H E R N A N D E Z. (Govorec 2) Hvala, Kristina.

🐳 Kit dobi obe uporabi pravilno:

(Govorec 1) Ime mi je Kristina Hernandez. To se črkuje K R I S T I N A H E R N A N D E Z. (Govorec 2) Hvala, Kristina.

Izboljšanje natančnosti z metapodatki

Obstajajo primeri, kjer niti človeški prevajalec ne more nedvoumno določiti pravilnega prepisa. Na primer, če Kristina ne bi nikoli črkovala svojega imena, bi bilo nemogoče (samo na podlagi avdia) določiti pravilno črkovanje njenega imena.

Za še večjo izboljšanje natančnosti TurboScribe uporablja metapodatke, priložene avdio in video datotekam, ki jih naložite (kot so ime datoteke, naslov in opis) za avtomatsko izboljšanje prepisov izrazov, ki jih ni mogoče nedvoumno določiti samo na podlagi avdia.

Na primer, če metapodatki MP3 naslova, izvajalca ali komentarja omenjajo "Kristina Hernandez", je pri vseh 3 načinih veliko bolj verjetno, da bodo pravilno prepisali njeno ime.

Zaključek

Povzeto, TurboScribe ponuja tri načine prepisovanja:

  • 🐆 Gepard zagotavlja natančne prepise kar najhitreje.
  • 🐬 Delfin stremi k popolnemu ravnovesju med natančnostjo in hitrostjo.
  • 🐳 Kit maksimizira natančnost, vendar vzame malo več časa. Je TurboScribov privzeti način.

Najboljši način za resnično razumevanje njihovih zmogljivosti je, da jih preizkusite sami. Začnite brezplačno in prepišite do 4 avdio ali video datoteke brezplačno vsak dan.

O storitvi TurboScribe

TurboScribe pretvarja avdio in video v natančno besedilo v nekaj sekundah s pomočjo umetne inteligence.

Več o TurboScribe

Ste pripravljeni začeti s prepisovanjem?

Pridobite poln dostop do ...

Neomejeni prepisi
Neomejeno prepisovanje za eno osebo.
🎯
99,8 % natančnost
Poganja Whisper, najnatančnejša in najzmogljivejša tehnologija za AI pretvorbo govora v besedilo na svetu.
🌍
Več kot 98 jezikov
TurboScribe podpira svetovne govorjene jezike.
🚀
10-urne datoteke
Vsaka datoteka je lahko dolga do 10 ur / 5 GB. Naložite 50 datotek hkrati.
👥
Prepoznavanje govorcev
Odlično za sestanke, intervjuje in podcaste.