PrisijungtiRegistruotis
TurboScribe modes banner

Transkripcijos režimai, paaiškinta

2023 m. rugpjūčio 23 d.
Leif Foged
Leif Foged

Šiandien gilinsimės į TurboScribe transkripcijos variklį, koncentruodamiesi į tris transkripcijos režimus – Gepardą, Delfiną ir Banginį.

Kuo skiriasi šie 3 režimai? Štai trumpai:

  • 🐆 Gepardas yra greičiausias režimas. Jis transkribuoja 1 valandą garso ar vaizdo per 30 sekundžių. Jis pritaikytas pateikti transkripciją kuo greičiau.
  • 🐬 Delfinas užtikrina labai didelį tikslumą, išlikdamas labai greitas. Jam prireikia maždaug 3 minučių transkribuoti 1 valandą garso ar vaizdo.
  • 🐳 Banginis yra pritaikytas maksimaliam tikslumui. Jis transkribuoja 1 valandą garso ar vaizdo per mažiau nei 10 minučių.

Įkeliant failą, galite rinktis bet kurį iš šių 3 režimų (🐳 Banginis yra numatytasis).

Taigi, kurį turėtumėte pasirinkti? Rekomenduojame pradėti nuo numatytojo (Banginio) maksimaliam tikslumui ir perjungti į Delfiną ar Gepardą, kai reikia transkribcijų dar greičiau.

Tiems, kurie nori geriau suprasti, kas vyksta po gaubtu, kviečiame skaityti toliau.

Whisper: Daugiau nei girdima

Audio waves

Pažvelkime atidžiau į Whisper, dirbtinio intelekto technologiją, kuri slypi už TurboScribe transkripcijos.

Whisper nėra tik vienas DI modelis; iš tiesų tai penkių modelių šeima, kur kiekvienas turi skirtingą tikslumą ir greitį.

Žemiausiame lygyje Whisper pradeda nuo "tiny" modelio (su "tik" 39 milijonais parametrų) ir siekia iki "large" (su 1,55 milijardo parametrų).

"tiny" yra greičiausias, bet daro daugiausia klaidų. "base" ir "small" yra geresni nei dauguma žmonių. "large" yra tiksliausias (prilygsta profesionaliems transkribuotojams ir vertėjams), bet reikalauja daug atminties ir brangios aparatinės įrangos.

5 Whisper modeliai

Whisper šeimą sudaro 5 skirtingi DI modeliai:

  • tiny — 39 milijonai parametrų
  • base — 74 milijonai parametrų (varo TurboScribe 🐆 Gepardo režimą)
  • small — 244 milijonai parametrų (varo TurboScribe 🐬 Delfino režimą)
  • medium — 769 milijonai parametrų
  • large — 1,55 milijardo parametrų (varo TurboScribe 🐳 Banginio režimą)

Deja, jei neturite ypač galingo kompiuterio ar prieigos prie galingos GPU (vaizdo apdorojimo procesoriaus), daugumai žmonių bus sunku efektyviai paleisti modelius, didesnius nei "base".

GPU yra paslaptis, leidžianti transkribuoti garsą greitai. Deja, jie taip pat yra gana brangūs. Šiuo metu vienas Nvidia A100 — lustas "variantis DI lenktynes" — kainuoja $6,715.00 "Amazon" svetainėje.

TurboScribe naudoja GPU, kad žymiai pagreitintų transkripciją ir atliktų daugiau darbo greičiau.

Transkripcijos laiko palyginimas

Palyginkime kiekvieną TurboScribe režimą mūsų GPU varomame transkripcijos variklyje, transkribuojant 1 valandos garso failą apie Antrąjį pasaulinį karą.

🐆 Gepardas

Gepardas prioritetą teikia tikslių transkripcijų pateikimui maksimaliu greičiu, varomas 74 milijonų parametrų "base" modelio. Štai kaip atrodo mūsų 1 valandos garso failo transkripcija:

Tai užtruko tik 20 sekundžių. Kitaip tariant, tai greita.

🐬 Delfinas

Delfinas, su 244 milijonais parametrų, užtrunka šiek tiek daugiau nei dvigubai ilgiau (kas vis tiek yra gana greitai):

🐳 Banginis

Galiausiai, Banginiui prireikia apie 3 minučių transkribuoti tą patį 1 valandos garso failą (su milžinišku 1,55 milijardo parametrų Whisper "large-v2" modeliu):

Atminkite, kad transkripcijos laikas gali šiek tiek skirtis.

Pavyzdžiui, didelio 4GB vaizdo failo (su 2 valandomis garso) transkripcija užtruks šiek tiek ilgiau nei mažesnio 100MB MP3 failo su tomis pačiomis 2 valandomis garso – tai daugiausia dėl to, kad turime praleisti daugiau laiko perkeliant, analizuojant, apdorojant ir konvertuojant jūsų medijos failą prieš pradedant transkripciją.

Garso failai su mažai aptinkamos žmogaus kalbos (pavyzdžiui, garso įrašas su daug tylių periodų) paprastai gali būti transkribuojami greičiau. Be to, kelių failų transkripcija taip pat paprastai yra greitesnė nei vieno failo.

Tikslumo palyginimas

Daugeliui įprastų garso ir vaizdo failų nėra skirtumo tarp 🐆 Gepardo, 🐬 Delfino ir 🐳 Banginio.

🐬 Delfinas ir 🐳 Banginis iš tikrųjų išsiskiria tais atvejais, kai reikia kontekstinių užuominų, norint atskirti panašiai skambančius žodžius.

Pavyzdžiui, trūkinėjančiame, greito tempo teisiniame įraše su dideliu foniniu triukšmu, terminas "Habeas Corpus" buvo neteisingai išverstas kaip "happy is porpoise" naudojant 🐆 Gepardą. Tačiau, remiantis aplinkinės pokalbio kontekstu (kuriame buvo kitų teisinių terminų), tiek 🐬 Delfinas, tiek 🐳 Banginis teisingai nustatė, kad "Habeas Corpus" yra labiausiai tikėtina transkripcija.

Štai dar vienas pavyzdys: garso įraše moteris vardu Kristina Hernandez prisistato ir parašo savo vardą.

🐆 Gepardas neteisingai transkribuoja jos vardą kaip "Christina" (vietoj "Kristina"):

(1 kalbėtojas) Mano vardas yra Christina Hernandez. Tai parašoma K R I S T I N A H E R N A N D E Z. (2 kalbėtojas) Ačiū, Christina.

🐬 Delfinas neteisingai transkribuoja pirmąjį jos vardo pavartojimą, bet pataiso antrą termino pavartojimą (po to, kai ji parašo savo vardą):

(1 kalbėtojas) Mano vardas yra Christina Hernandez. Tai parašoma K R I S T I N A H E R N A N D E Z. (2 kalbėtojas) Ačiū, Kristina.

🐳 Banginis teisingai atpažįsta abu pavartojimus:

(1 kalbėtojas) Mano vardas yra Kristina Hernandez. Tai parašoma K R I S T I N A H E R N A N D E Z. (2 kalbėtojas) Ačiū, Kristina.

Tikslumo gerinimas naudojant metaduomenis

Yra atvejų, kai net žmogus vertėjas negali vienareikšmiškai nustatyti teisingos transkripcijos. Pavyzdžiui, jei Kristina niekada nebūtų parašiusi savo vardo, būtų neįmanoma (remiantis vien tik garsu) nustatyti teisingą jos vardo rašybą.

Norėdamas dar labiau pagerinti tikslumą, TurboScribe naudoja metaduomenis, pridėtus prie įkeliamų garso ir vaizdo failų (pavyzdžiui, failo pavadinimą, antraštę ir aprašymą), kad automatiškai pagerintų terminų, kurių negalima vienareikšmiškai nustatyti remiantis vien garsu, transkripciją.

Pavyzdžiui, jei MP3 metaduomenų pavadinime, atlikėjo lauke ar komentare minima "Kristina Hernandez", visi 3 režimai daug labiau linkę teisingai transkribuoti jos vardą.

Apibendrinant

Apibendrinant, TurboScribe siūlo tris transkripcijos režimus:

  • 🐆 Gepardas pateikia tikslias transkripcijas kuo greičiau.
  • 🐬 Delfinas siekia tobulos pusiausvyros tarp tikslumo ir greičio.
  • 🐳 Banginis maksimizuoja tikslumą, bet užtrunka šiek tiek ilgiau. Tai TurboScribe numatytasis režimas.

Geriausias būdas iš tikrųjų suprasti jų galimybes – išbandyti juos patiems. Pradėkite nemokamai ir transkribuokite iki 4 garso ar vaizdo failų nemokamai kiekvieną dieną.

Apie TurboScribe

TurboScribe paverčia garsą ir vaizdą į tikslų tekstą per kelias sekundes, naudodamas DI.

Sužinokite daugiau apie TurboScribe

Pasiruošę pradėti transkripcijas?

Gaukite pilną prieigą prie...

Neribota transkripcija
Neribotos transkripcijos vienam asmeniui.
🎯
99,8 % tikslumas
Veikia su Whisper – tiksliausiu ir galingiausiu dirbtinio intelekto kalbos į tekstą transkribavimo technologija pasaulyje.
🌍
98+ kalbų
TurboScribe palaiko visas pasaulio kalbėtas kalbas.
🚀
10 valandų trukmės įkėlimai
Kiekvienas failas gali būti iki 10 valandų ilgio / 5 GB. Įkelkite 50 failų vienu metu.
👥
Kalbėtojų atpažinimas
Puikiai tinka susitikimams, interviu ir tinklalaidėms.