Šodien mēs iedziļināsimies TurboScribe transkripcijas dzinējā, pievēršoties tā trim transkripcijas režīmiem – Gepards, Delfīns un Valis.
Kāda ir atšķirība starp šiem 3 režīmiem? Lūk, īsumā:
Gepards ir ātrākais režīms. Tas transkribē 1 stundu audio vai video 30 sekundēs. Tas ir pielāgots, lai nodrošinātu transkriptu pēc iespējas ātrāk.
Delfīns nodrošina ļoti augstu precizitāti, vienlaikus saglabājot lielu ātrumu. Tam nepieciešamas aptuveni 3 minūtes, lai transkribētu 1 stundu audio vai video.
Valis ir pielāgots maksimālai precizitātei. Tas transkribē 1 stundu audio vai video mazāk nekā 10 minūtēs.
Augšupielādējot failu, varat izvēlēties starp jebkuru no šiem 3 režīmiem ( Valis ir noklusējuma režīms).
Tātad, kuru izvēlēties? Mēs iesakām sākt ar noklusējuma režīmu (Valis), lai nodrošinātu maksimālu precizitāti, un pārslēgties uz Delfīnu vai Gepardu, kad nepieciešami transkripti vēl ātrāk.
Tiem no jums, kas vēlas labāk saprast, kas notiek aiz kadra, turpiniet lasīt.
Whisper: Vairāk nekā šķiet
Apskatīsim tuvāk Whisper, AI tehnoloģiju, kas ir TurboScribe transkripcijas pamatā.
Whisper nav tikai viens AI modelis; tas patiesībā ir piecu modeļu saime, katram ar atšķirīgu līdzsvaru starp precizitāti un ātrumu.
Zemākajā līmenī Whisper sākas ar "tiny" modeli (ar "tikai" 39 miljoniem parametru) un sasniedz "large" (ar 1,55 miljardiem parametru).
"tiny" ir visātrākais, bet pieļauj visvairāk kļūdu. "base" un "small" ir labāki nekā vairums cilvēku. "large" ir visprecīzākais (salīdzināms ar profesionāliem transkribētājiem un tulkotājiem), bet tam nepieciešama liela atmiņa un dārga aparatūra.
Whisper 5 modeļi
Whisper saimē ir 5 dažādi AI modeļi:
- tiny — 39 miljoni parametru
- base — 74 miljoni parametru (darbina TurboScribe
Geparda režīmu)
- small — 244 miljoni parametru (darbina TurboScribe
Delfīna režīmu)
- medium — 769 miljoni parametru
- large — 1,55 miljardi parametru (darbina TurboScribe
Vaļa režīmu)
Diemžēl, ja vien jums nav īpaši jaudīga datora vai piekļuves spēcīgam GPU (grafiskās apstrādes procesoram), lielākajai daļai cilvēku būs grūti efektīvi darbināt modeļus, kas lielāki par "base".
GPU ir noslēpums ātrai audio transkribēšanai. Diemžēl tie ir arī diezgan dārgi. Šobrīd viens Nvidia A100 — mikroshēma, kas "virza AI sacensības" — maksā $6,715.00 Amazon vietnē.
TurboScribe izmanto GPU, lai ievērojami paātrinātu transkripciju un paveiktu vairāk, ātrāk.
Transkripcijas laiku salīdzinājums
Salīdzināsim katru no TurboScribe režīmiem mūsu GPU darbinātajā transkripcijas dzinējā, transkribējot 1 stundu garu audio failu par Otro pasaules karu.
Gepards
Gepards prioritizē precīzu transkriptu nodrošināšanu maksimālā ātrumā, izmantojot 74 miljonu parametru "base" modeli. Lūk, kā izskatās mūsu 1 stundas audio faila transkribēšana:
Tas aizņēma tikai 20 sekundes. Citiem vārdiem sakot, tas ir ātrs.
Delfīns
Delfīnam ar 244 miljoniem parametru nepieciešams nedaudz vairāk nekā divreiz ilgāks laiks (kas joprojām ir diezgan ātri):
Valis
Visbeidzot, Valim nepieciešamas aptuveni 3 minūtes, lai transkribētu to pašu 1 stundas audio failu (ar milzīgo 1,55 miljardu parametru Whisper "large-v2" modeli):
Ņemiet vērā, ka transkripcijas laiki var nedaudz atšķirties.
Piemēram, liela, 4GB video faila (ar 2 stundu audio) transkribēšana aizņems nedaudz vairāk laika nekā mazāka 100MB MP3 faila ar tādu pašu 2 stundu audio transkribēšana — tas galvenokārt tāpēc, ka mums jāpavada vairāk laika jūsu multivides faila pārsūtīšanai, analizēšanai, priekšapstrādei un konvertēšanai, pirms mēs faktiski sākam transkripciju.
Audio failus ar maz konstatējamu cilvēka runu (piemēram, audio ieraksts ar daudziem klusuma periodiem) parasti var transkribēt ātrāk. Turklāt vairāku failu transkribēšana parasti ir ātrāka nekā viena faila transkribēšana.
Precizitātes salīdzinājums
Daudziem parastiem audio un video failiem nav nekādas atšķirības starp Gepardu,
Delfīnu un
Vali.
Delfīns un
Valis īpaši izceļas gadījumos, kad kontekstuālās norādes ir nepieciešamas, lai atšķirtu līdzīgi skanošus vārdus.
Piemēram, saraustītā, ātrā juridiskā ierakstā ar augstu fona trokšņu līmeni termins "Habeas Corpus" tika nepareizi transkribēts kā "happy is porpoise" ar Gepardu. Tomēr, pamatojoties uz apkārtējās sarunas kontekstu (kurā bija citi juridiskie termini), gan
Delfīns, gan
Valis pareizi noteica, ka "Habeas Corpus" ir visticamākā transkripcija.
Lūk, vēl viens piemērs: audio ierakstā sieviete vārdā Kristina Hernandeza iepazīstina sevi un pareizraksta savu vārdu.
Gepards nepareizi transkribē viņas vārdu kā "Christina" (nevis "Kristina"):
(1. runātājs) Mans vārds ir Christina Hernandez. Tas rakstās K R I S T I N A H E R N A N D E Z. (2. runātājs) Paldies, Christina.
Delfīns nepareizi transkribē pirmo vārda lietojumu, bet izlabo otro termina lietojumu (pēc tam, kad viņa pareizraksta savu vārdu):
(1. runātājs) Mans vārds ir Christina Hernandez. Tas rakstās K R I S T I N A H E R N A N D E Z. (2. runātājs) Paldies, Kristina.
Valis pareizi transkribē abus lietojumus:
(1. runātājs) Mans vārds ir Kristina Hernandez. Tas rakstās K R I S T I N A H E R N A N D E Z. (2. runātājs) Paldies, Kristina.
Precizitātes uzlabošana ar metadatiem
Ir gadījumi, kad pat cilvēks tulkotājs nevar viennozīmīgi noteikt pareizo transkripciju. Piemēram, ja Kristina nekad nebūtu pareizrakstījusi savu vārdu, būtu bijis neiespējami (pamatojoties tikai uz audio) noteikt pareizo viņas vārda rakstību.
Lai vēl vairāk uzlabotu precizitāti, TurboScribe izmanto metadatus, kas pievienoti jūsu augšupielādētajiem audio un video failiem (piemēram, faila nosaukumu, virsrakstu un aprakstu), lai automātiski uzlabotu to terminu transkripcijas, kurus nevar viennozīmīgi noteikt, pamatojoties tikai uz audio.
Piemēram, ja MP3 metadatu virsrakstā, izpildītājā vai komentārā ir minēts "Kristina Hernandez", visiem 3 režīmiem ir daudz lielāka iespēja pareizi transkribēt viņas vārdu.
Nobeigums
Apkopojot, TurboScribe piedāvā trīs transkripcijas režīmus:
Gepards nodrošina precīzas transkripcijas pēc iespējas ātrāk.
Delfīns tiecas pēc ideāla līdzsvara starp precizitāti un ātrumu.
Valis maksimizē precizitāti, bet aizņem nedaudz vairāk laika. Tas ir TurboScribe noklusējuma režīms.
Labākais veids, kā patiesi izprast to iespējas, ir izmēģināt tos pašam. Sāciet bez maksas un transkribējiet līdz 4 audio vai video failiem bez maksas katru dienu.

