Mënyrat e transkriptimit, të shpjeguara

Sot, po shqyrtojmë motorin e transkriptimit të TurboScribe, duke u fokusuar në tre mënyrat e tij të transkriptimit – Gepardi, Delfini dhe Balenë.

Cila është ndryshimi midis këtyre 3 mënyrave? Ja përmbledhja:

Gepardi është mënyra më e shpejtë. Transkripton 1 orë audio ose video në 30 sekonda. Është optimizuar për t'ju dhënë transkriptin sa më shpejt të jetë e mundur.
Delfini ofron saktësi shumë të lartë, duke qenë ende shumë i shpejtë. Merr rreth 3 minuta për të transkriptuar 1 orë audio ose video.
Balena është optimizuar për saktësi maksimale. Transkripton 1 orë audio ose video në më pak se 10 minuta.

Kur ngarkoni një skedar, mund të zgjidhni midis çdonjërës nga këto 3 mënyra ( Balena është parazgjedhja).

Cilën duhet të zgjidhni? Ne rekomandojmë të filloni me parazgjedhjen (Balena) për saktësi maksimale dhe të kaloni në Delfin ose Gepard kur ju nevojiten transkripte edhe më shpejt.

Për ata që dëshirojnë të kenë një ide më të mirë se çfarë ndodh nën kapuç, mund të vazhdoni të lexoni.

Whisper: Më shumë sesa duket në sipërfaqe

Le të hedhim një vështrim më të afërt te Whisper, teknologjia AI pas transkriptimit të TurboScribe.

Whisper nuk është thjesht një model i vetëm AI; në fakt është një familje prej pesë modelesh, secili me kompromise të ndryshme midis saktësisë dhe shpejtësisë.

Në nivelin e ulët, Whisper fillon me modelin "tiny" (me "vetëm" 39 milionë parametra) dhe shkon deri te "large" (me 1.55 miliardë parametra).

"tiny" është më i shpejti, por bën më shumë gabime. "base" dhe "small" janë më të mirë se shumica e njerëzve. "large" është më i sakti (i krahasueshëm me transkriptues dhe përkthyes profesionistë), por kërkon shumë memorie dhe hardware të shtrenjtë.

5 Modelet e Whisper

Familja Whisper përmban 5 modele të ndryshme AI:

tiny — 39 milionë parametra
base — 74 milionë parametra (fuqizon mënyrën Gepard të TurboScribe)
small — 244 milionë parametra (fuqizon mënyrën Delfin të TurboScribe)
medium — 769 milionë parametra
large — 1.55 miliardë parametra (fuqizon mënyrën Balenë të TurboScribe)

Fatkeqësisht, nëse nuk keni një kompjuter veçanërisht të fuqishëm ose nuk keni akses në një GPU (njësi përpunimi grafik) të fortë, shumica e njerëzve do të kenë vështirësi të ekzekutojnë në mënyrë efikase shumicën e modeleve më të mëdha se "base".

GPU-të janë sekreti për transkriptimin e audios shpejt. Fatkeqësisht, ato janë gjithashtu mjaft të shtrenjta. Në kohën e shkrimit të këtij artikulli, një Nvidia A100 i vetëm — çipi që "fuqizon garën për AI" — kushton $6,715.00 në Amazon.

TurboScribe përdor GPU për të përshpejtuar ndjeshëm transkriptimin dhe për të bërë më shumë, më shpejt.

Krahasimi i kohëve të transkriptimit

Le të krahasojmë secilën nga mënyrat e TurboScribe në motorin tonë të transkriptimit të fuqizuar nga GPU duke transkriptuar një skedar audio 1 orësh për Luftën e Dytë Botërore.

Gepardi

Gepardi i jep përparësi dhënies së transkripteve të sakta me shpejtësi maksimale, i fuqizuar nga modeli "base" me 74 milionë parametra. Ja se si duket transkriptimi i skedarit tonë audio 1 orësh:

Kjo mori vetëm 20 sekonda. Me fjalë të tjera, është i shpejtë.

Delfini

Delfini, me 244 milionë parametra, merr pak më shumë se dyfishi i kohës (që është ende mjaft shpejt):

Balena

Së fundmi, Balena merr rreth 3 minuta për të transkriptuar të njëjtin skedar audio 1 orësh (me modelin masiv Whisper "large-v2" me 1.55 miliardë parametra):

Mbani mend se kohët e transkriptimit mund të ndryshojnë pak.

Për shembull, transkriptimi i një skedari video të madh 4GB (me 2 orë audio) do të marrë pak më shumë kohë se një skedar MP3 më i vogël 100MB me të njëjtat 2 orë audio — kjo është kryesisht sepse duhet të kalojmë më shumë kohë duke transferuar, analizuar, parapërpunuar dhe konvertuar skedarin tuaj të medias përpara se të fillojmë transkriptimin.

Skedarët audio me pak të folur të dukshëm njerëzor (mendoni për një regjistrim audio me shumë periudha heshtjeje) zakonisht mund të transkriptohen më shpejt. Për më tepër, transkriptimi i shumë skedarëve është gjithashtu zakonisht më i shpejtë se transkriptimi i një skedari të vetëm.

Krahasimi i saktësisë

Për shumë skedarë të zakonshëm audio dhe video, nuk ka asnjë ndryshim midis Gepardit, Delfinit dhe Balenës.

Ku Delfini dhe Balena vërtet shkëlqejnë është në rastet ku elementët kontekstualë janë të nevojshëm për të dalluar fjalët që tingëllojnë ngjashëm.

Për shembull, në një regjistrim ligjor të copëtuar, të shpejtë me shumë zhurma në sfond, termi "Habeas Corpus" u transkriptua gabimisht si "happy is porpoise" me Gepardin. Megjithatë, bazuar në kontekstin e bisedës përreth (e cila përfshinte terma të tjerë ligjorë), si Delfini ashtu edhe Balena përcaktuan saktë se "Habeas Corpus" është transkriptimi më i mundshëm.

Ja një shembull tjetër: në një regjistrim audio, një grua e quajtur Kristina Hernandez prezanton veten dhe gërmon emrin e saj.

Gepardi transkripton gabimisht emrin e saj si "Christina" (në vend të "Kristina"):

(Folësi 1) Emri im është Christina Hernandez. Shkruhet K R I S T I N A H E R N A N D E Z. (Folësi 2) Faleminderit, Christina.

Delfini transkripton gabimisht përdorimin e parë të emrit të saj, por korrigjon përdorimin e dytë të termit (pasi ajo gërmon emrin e saj):

(Folësi 1) Emri im është Christina Hernandez. Shkruhet K R I S T I N A H E R N A N D E Z. (Folësi 2) Faleminderit, Kristina.

Balena i merr të dy përdorimet saktë:

(Folësi 1) Emri im është Kristina Hernandez. Shkruhet K R I S T I N A H E R N A N D E Z. (Folësi 2) Faleminderit, Kristina.

Përmirësimi i saktësisë me metadata

Ka raste ku edhe një përkthyes njerëzor nuk mund të përcaktojë në mënyrë të qartë një transkriptim të saktë. Për shembull, nëse Kristina nuk do të kishte gërmuar kurrë emrin e saj, do të ishte e pamundur (bazuar vetëm në audio) të përcaktohej drejtshkrimi i saktë i emrit të saj.

Për të përmirësuar saktësinë edhe më tej, TurboScribe përdor metadata të bashkëngjitur me skedarët audio dhe video që ngarkoni (si emri i skedarit, titulli dhe përshkrimi) për të përmirësuar automatikisht transkriptimet e termave që nuk mund të përcaktohen në mënyrë të qartë bazuar vetëm në audio.

Për shembull, nëse titulli, artisti ose komenti i metadatave MP3 i referohet "Kristina Hernandez", të gjitha 3 mënyrat kanë më shumë gjasa të transkriptojnë saktë emrin e saj.

Përmbyllje

Përmbledhtas, TurboScribe ofron tre mënyra transkriptimi:

Gepardi ofron transkriptime të sakta sa më shpejt të jetë e mundur.
Delfini synon ekuilibrin e përsosur midis saktësisë dhe shpejtësisë.
Balena maksimizon saktësinë, por merr pak më shumë kohë. Është mënyra e parazgjedhur e TurboScribe.

Mënyra më e mirë për të kuptuar vërtet aftësitë e tyre është duke i provuar vetë. Filloni falas dhe transkriptoni deri në 4 skedarë audio ose video falas çdo ditë.

TurboScribe