Moduri de transcriere, explicate

Astăzi, vom analiza motorul de transcriere al TurboScribe, concentrându-ne pe cele trei moduri de transcriere – Ghepardul, Delfinul și Balena.

Care este diferența între aceste 3 moduri? Iată pe scurt:

Ghepardul este cel mai rapid mod. Transcrie 1 oră de audio sau video în 30 de secunde. Este optimizat pentru a livra transcrierea cât mai rapid posibil.
Delfinul oferă acuratețe foarte ridicată, fiind în același timp foarte rapid. Durează aproximativ 3 minute pentru a transcrie 1 oră de audio sau video.
Balena este optimizat pentru acuratețe maximă. Transcrie 1 oră de audio sau video în mai puțin de 10 minute.

Când încărcați un fișier, puteți alege între oricare dintre aceste 3 moduri ( Balena este implicit).

Așadar, pe care să-l alegeți? Vă recomandăm să începeți cu cel implicit (Balena) pentru acuratețe maximă și să treceți la Delfin sau Ghepard când aveți nevoie de transcrieri și mai rapide.

Pentru cei dintre voi care doresc să înțeleagă mai bine ce se întâmplă în culise, vă invităm să citiți în continuare.

Whisper: Mai mult decât pare

Să aruncăm o privire mai atentă asupra Whisper, tehnologia AI din spatele transcrierii TurboScribe.

Whisper nu este doar un singur model AI; este de fapt o familie de cinci modele, fiecare cu compromisuri diferite între acuratețe și viteză.

La nivel inferior, Whisper începe cu modelul "tiny" (cu "doar" 39 de milioane de parametri) și ajunge până la "large" (cu 1,55 miliarde de parametri).

"tiny" este cel mai rapid, dar face cele mai multe erori. "base" și "small" sunt mai bune decât majoritatea oamenilor. "large" este cel mai precis (comparabil cu transcriitorii și traducătorii profesioniști), dar necesită multă memorie și hardware scump.

Cele 5 modele Whisper

Familia Whisper conține 5 modele AI diferite:

tiny — 39 milioane parametri
base — 74 milioane parametri (alimentează modul Ghepard al TurboScribe)
small — 244 milioane parametri (alimentează modul Delfin al TurboScribe)
medium — 769 milioane parametri
large — 1,55 miliarde parametri (alimentează modul Balena al TurboScribe)

Din păcate, dacă nu aveți un calculator deosebit de puternic sau acces la un GPU (unitate de procesare grafică) performant, majoritatea oamenilor vor avea dificultăți în a rula eficient modele mai mari decât "base".

GPU-urile sunt secretul transcrierii audio rapide. Din păcate, sunt și destul de scumpe. La momentul scrierii, un singur Nvidia A100 — cipul care "alimentează cursa pentru AI" — costă $6.715,00 pe Amazon.

TurboScribe folosește GPU-uri pentru a accelera semnificativ transcrierea și pentru a realiza mai mult, mai rapid.

Compararea timpilor de transcriere

Să comparăm fiecare dintre modurile TurboScribe pe motorul nostru de transcriere bazat pe GPU, transcriind un fișier audio de 1 oră despre Al Doilea Război Mondial.

Ghepardul

Ghepardul prioritizează livrarea transcrierilor precise la viteză maximă, fiind alimentat de modelul "base" cu 74 milioane de parametri. Iată cum arată transcrierea fișierului nostru audio de 1 oră:

Asta a durat doar 20 de secunde. Cu alte cuvinte, este rapid.

Delfinul

Delfinul, cu 244 milioane de parametri, durează puțin peste de două ori mai mult (ceea ce este încă destul de rapid):

Balena

În cele din urmă, Balena durează aproximativ 3 minute pentru a transcrie același fișier audio de 1 oră (cu masivul model Whisper "large-v2" de 1,55 miliarde de parametri):

Țineți cont că timpii de transcriere pot varia ușor.

De exemplu, transcrierea unui fișier video mare de 4GB (cu 2 ore de audio) va dura puțin mai mult decât un fișier MP3 mai mic de 100MB cu aceleași 2 ore de audio — acest lucru se datorează în principal faptului că trebuie să petrecem mai mult timp transferând, analizând, preprocesând și convertind fișierul media înainte de a începe efectiv transcrierea.

Fișierele audio cu puțină vorbire umană detectabilă (gândiți-vă la o înregistrare audio cu multe perioade de liniște) pot fi de obicei transcrise mai rapid. În plus, transcrierea mai multor fișiere este de obicei mai rapidă decât transcrierea unui singur fișier.

Compararea acurateței

Pentru multe fișiere audio și video obișnuite, nu există nicio diferență între Ghepard, Delfin și Balena.

Unde Delfinul și Balena excelează cu adevărat este în cazurile în care sunt necesare indicii contextuale pentru a dezambiguiza cuvinte care sună similar.

De exemplu, într-o înregistrare juridică sacadată, rapidă, cu mult zgomot de fundal, termenul "Habeas Corpus" a fost tradus greșit ca "happy is porpoise" cu Ghepardul. Cu toate acestea, bazându-se pe contextul conversației înconjurătoare (care implica alți termeni juridici), atât Delfinul, cât și Balena au determinat corect că "Habeas Corpus" este transcrierea cea mai probabilă.

Iată un alt exemplu: într-o înregistrare audio, o femeie pe nume Kristina Hernandez se prezintă și își silabisește numele.

Ghepardul transcrie incorect numele ei ca "Christina" (în loc de "Kristina"):

(Vorbitorul 1) Numele meu este Christina Hernandez. Se scrie K R I S T I N A H E R N A N D E Z. (Vorbitorul 2) Mulțumesc, Christina.

Delfinul transcrie incorect prima utilizare a numelui ei, dar corectează a doua utilizare a termenului (după ce ea își silabisește numele):

(Vorbitorul 1) Numele meu este Christina Hernandez. Se scrie K R I S T I N A H E R N A N D E Z. (Vorbitorul 2) Mulțumesc, Kristina.

Balena le transcrie corect pe ambele:

(Vorbitorul 1) Numele meu este Kristina Hernandez. Se scrie K R I S T I N A H E R N A N D E Z. (Vorbitorul 2) Mulțumesc, Kristina.

Îmbunătățirea acurateței cu metadate

Există cazuri în care nici măcar un translator uman nu poate determina neambiguu o transcriere corectă. De exemplu, dacă Kristina nu și-ar fi silabisit niciodată numele, ar fi fost imposibil (bazându-ne doar pe audio) să determinăm ortografia corectă a numelui ei.

Pentru a îmbunătăți și mai mult acuratețea, TurboScribe folosește metadatele atașate fișierelor audio și video pe care le încărcați (cum ar fi numele fișierului, titlul și descrierea) pentru a îmbunătăți automat transcrierile termenilor care nu pot fi determinați neambiguu doar pe baza audio.

De exemplu, dacă metadatele MP3 pentru titlu, artist sau comentariu fac referire la "Kristina Hernandez", toate cele 3 moduri sunt mult mai predispuse să-i transcrie corect numele.

Concluzie

În rezumat, TurboScribe oferă trei moduri de transcriere:

Ghepardul oferă transcrieri precise cât mai rapid posibil.
Delfinul țintește echilibrul perfect între acuratețe și viteză.
Balena maximizează acuratețea, dar durează puțin mai mult. Este modul implicit al TurboScribe.

Cea mai bună modalitate de a înțelege cu adevărat capacitățile lor este să le încercați singuri. Începeți gratuit și transcrieți până la 4 fișiere audio sau video gratuit în fiecare zi.

TurboScribe