PrijavaRegistrirajte se
TurboScribe modes banner

Načini transkripcije, objašnjeni

23. kolovoza 2023.
Leif Foged
Leif Foged

Danas se upuštamo u TurboScribeov sustav transkripcije, s fokusom na njegova tri načina transkripcije – Gepard, Dupin i Kit.

Koja je razlika između ova 3 načina? Evo ukratko:

  • 🐆 Gepard je najbrži način. Transkribira 1 sat audio ili video sadržaja za 30 sekundi. Prilagođen je da isporuči transkript što je brže moguće.
  • 🐬 Dupin pruža vrlo visoku preciznost, a istovremeno je vrlo brz. Potrebno mu je oko 3 minute za transkripciju 1 sata audio ili video sadržaja.
  • 🐳 Kit je podešen za maksimalnu preciznost. Transkribira 1 sat audio ili video sadržaja za manje od 10 minuta.

Pri učitavanju datoteke možete birati između bilo kojeg od ova 3 načina (🐳 Kit je zadani).

Dakle, koji biste trebali odabrati? Preporučujemo da počnete sa zadanim (Kit) za maksimalnu preciznost i prebacite se na Dupin ili Gepard kada su vam potrebni transkripti još brže.

Za one koji žele bolji uvid u to što se događa ispod poklopca, slobodno nastavite čitati.

Whisper: Više od onoga što se čini

Audio waves

Pogledajmo pobliže Whisper, AI tehnologiju koja stoji iza TurboScribeove transkripcije.

Whisper nije samo jedan AI model; zapravo je to obitelj od pet modela, svaki s različitim kompromisima između preciznosti i brzine.

Na donjem kraju, Whisper počinje s "tiny" modelom (sa "samo" 39 milijuna parametara) i ide sve do "large" (s 1,55 milijardi parametara).

"tiny" je najbrži, ali radi najviše pogrešaka. "base" i "small" su bolji od većine ljudi. "large" je najprecizniji (usporediv s profesionalnim transkriberima i prevoditeljima), ali zahtijeva puno memorije i skupu opremu.

Whisperovih 5 modela

Whisper obitelj sadrži 5 različitih AI modela:

  • tiny — 39 milijuna parametara
  • base — 74 milijuna parametara (pokreće TurboScribeov 🐆 način Gepard)
  • small — 244 milijuna parametara (pokreće TurboScribeov 🐬 način Dupin)
  • medium — 769 milijuna parametara
  • large — 1,55 milijardi parametara (pokreće TurboScribeov 🐳 način Kit)

Nažalost, ako nemate posebno snažno računalo ili pristup moćnom GPU-u (grafičkoj procesorskoj jedinici), većina ljudi će se mučiti s učinkovitim pokretanjem većine modela većih od "base".

GPU-i su tajna brzoj transkripciji zvuka. Nažalost, također su prilično skupi. U vrijeme pisanja, jedan Nvidia A100 — čip koji "pokreće utrku za AI" — košta $6.715,00 na Amazonu.

TurboScribe koristi GPU-e za značajno ubrzanje transkripcije i postizanje više u kraćem vremenu.

Usporedba vremena transkripcije

Usporedimo svaki od TurboScribeovih načina rada na našem GPU-pogonjenom sustavu transkripcije transkribiranjem jednosatne audio datoteke o Drugom svjetskom ratu.

🐆 Gepard

Gepard daje prioritet isporuci preciznih transkripata maksimalnom brzinom, pokretan modelom "base" sa 74 milijuna parametara. Evo kako izgleda transkripcija naše jednosatne audio datoteke:

To je trajalo samo 20 sekundi. Drugim riječima, brzo je.

🐬 Dupin

Dupin, s 244 milijuna parametara, traje malo više od dvostruko dulje (što je i dalje prilično brzo):

🐳 Kit

Konačno, Kitu treba oko 3 minute za transkripciju iste jednosatne audio datoteke (s masivnim Whisper "large-v2" modelom od 1,55 milijardi parametara):

Imajte na umu da vremena transkripcije mogu malo varirati.

Na primjer, transkripcija velike video datoteke od 4 GB (s 2 sata zvuka) trajat će malo dulje nego manja MP3 datoteka od 100 MB s istih 2 sata zvuka — to je uglavnom zato što moramo potrošiti više vremena na prijenos, analizu, predobradu i pretvorbu vaše medijske datoteke prije nego što stvarno započnemo transkripciju.

Audio datoteke s malo prepoznatljivog ljudskog govora (zamislite audio snimku s puno perioda tišine) obično se mogu transkribirati brže. Nadalje, transkripcija više datoteka također je obično brža od transkripcije jedne datoteke.

Usporedba preciznosti

Za mnoge uobičajene audio i video datoteke, nema razlike između 🐆 Geparda, 🐬 Dupina i 🐳 Kita.

Gdje 🐬 Dupin i 🐳 Kit zaista blistaju su slučajevi gdje su potrebni kontekstualni znakovi za razlikovanje slično zvučećih riječi.

Na primjer, u isprekidanoj, brzoj pravnoj snimci s visokom razinom pozadinske buke, pojam "Habeas Corpus" je pogrešno preveden kao "happy is porpoise" s 🐆 Gepardom. Međutim, na temelju konteksta okolnog razgovora (koji je uključivao druge pravne pojmove), i 🐬 Dupin i 🐳 Kit ispravno su odredili da je "Habeas Corpus" najvjerojatnija transkripcija.

Evo još jednog primjera: u audio snimci, žena po imenu Kristina Hernandez predstavlja se i sriče svoje ime.

🐆 Gepard netočno transkribira njeno ime kao "Christina" (umjesto "Kristina"):

(Govornik 1) Moje ime je Christina Hernandez. To se sriče K R I S T I N A H E R N A N D E Z. (Govornik 2) Hvala, Christina.

🐬 Dupin netočno transkribira prvu upotrebu njenog imena, ali ispravlja drugu upotrebu pojma (nakon što je sricala svoje ime):

(Govornik 1) Moje ime je Christina Hernandez. To se sriče K R I S T I N A H E R N A N D E Z. (Govornik 2) Hvala, Kristina.

🐳 Kit dobiva obje upotrebe točno:

(Govornik 1) Moje ime je Kristina Hernandez. To se sriče K R I S T I N A H E R N A N D E Z. (Govornik 2) Hvala, Kristina.

Poboljšanje preciznosti s metapodacima

Postoje slučajevi gdje čak ni ljudski prevoditelj ne može jednoznačno odrediti točnu transkripciju. Na primjer, da Kristina nikad nije sricala svoje ime, bilo bi nemoguće (samo na temelju zvuka) odrediti točno sricanje njenog imena.

Za daljnje poboljšanje preciznosti, TurboScribe koristi metapodatke priložene audio i video datotekama koje učitavate (kao što su naziv datoteke, naslov i opis) kako bi automatski poboljšao transkripcije pojmova koji se ne mogu jednoznačno odrediti samo na temelju zvuka.

Na primjer, ako MP3 metapodaci naslova, izvođača ili komentara spominju "Kristina Hernandez", sva 3 načina će vjerojatnije točno transkribirati njeno ime.

Zaključak

Ukratko, TurboScribe nudi tri načina transkripcije:

  • 🐆 Gepard pruža precizne transkripcije što je brže moguće.
  • 🐬 Dupin cilja na savršenu ravnotežu između preciznosti i brzine.
  • 🐳 Kit maksimizira preciznost, ali traje malo duže. To je TurboScribeov zadani način.

Najbolji način da stvarno shvatite njihove mogućnosti je da ih sami isprobate. Počnite besplatno i transkribirajte do 4 audio ili video datoteke besplatno svaki dan.

O TurboScribeu

TurboScribe pretvara audio i video u precizan tekst u nekoliko sekundi, pokretan umjetnom inteligencijom.

Saznajte više o TurboScribeu

Spremni za početak transkripcije?

Dobijte puni pristup...

Neograničene transkripcije
Neograničene transkripcije za jednu osobu.
🎯
99,8 % točnost
Pokreće Whisper, najpreciznija i najmoćnija AI tehnologija za transkripciju govora u tekst na svijetu.
🌍
98+ jezika
TurboScribe podržava govorne jezike svijeta.
🚀
Datoteke do 10 sati
Svaka datoteka može biti do 10 sati duga / 5 GB. Učitajte 50 datoteka odjednom.
👥
Prepoznavanje govornika
Izvrsno za sastanke, intervjue i podcaste.