Modes de transcripció explicats

Avui, aprofundirem en el motor de transcripció de TurboScribe, centrant-nos en els seus tres modes de transcripció: Guepard, Dofí i Balena.

Quina és la diferència entre aquests 3 modes? Aquí teniu el resum:

Guepard és el mode més ràpid. Transcriu 1 hora d'àudio o vídeo en 30 segons. Està optimitzat per oferir-te una transcripció el més ràpid possible.
Dofí ofereix una precisió molt alta, mentre segueix sent molt ràpid. Triga uns 3 minuts en transcriure 1 hora d'àudio o vídeo.
Balena està optimitzat per a la màxima precisió. Transcriu 1 hora d'àudio o vídeo en menys de 10 minuts.

Quan puges un fitxer, pots triar entre qualsevol d'aquests 3 modes ( Balena és el predeterminat).

Així doncs, quin hauries de triar? Recomanem començar amb el predeterminat (Balena) per obtenir la màxima precisió i canviar a Dofí o Guepard quan necessitis transcripcions encara més ràpides.

Per a aquells que voleu tenir una millor idea del que passa sota el capó, podeu continuar llegint.

Whisper: Més del que sembla

Fem una ullada més detallada a Whisper, la tecnologia d'IA darrere de la transcripció de TurboScribe.

Whisper no és només un model d'IA únic; en realitat és una família de cinc models, cadascun amb diferents compensacions entre precisió i velocitat.

A l'extrem inferior, Whisper comença amb el model "tiny" (amb "només" 39 milions de paràmetres) i arriba fins al "large" (amb 1,55 mil milions de paràmetres).

"tiny" és el més ràpid, però comet més errors. "base" i "small" són millors que la majoria dels humans. "large" és el més precís (comparable a transcriptors i traductors professionals), però requereix molta memòria i maquinari car.

Els 5 models de Whisper

La família Whisper conté 5 models d'IA diferents:

tiny — 39 milions de paràmetres
base — 74 milions de paràmetres (alimenta el mode Guepard de TurboScribe)
small — 244 milions de paràmetres (alimenta el mode Dofí de TurboScribe)
medium — 769 milions de paràmetres
large — 1,55 mil milions de paràmetres (alimenta el mode Balena de TurboScribe)

Malauradament, a menys que tinguis un ordinador particularment potent o tinguis accés a una GPU (unitat de processament gràfic) potent, la majoria de persones tindran dificultats per executar eficientment la majoria dels models més grans que "base".

Les GPU són el secret per transcriure àudio ràpidament. Malauradament, també són bastant cares. En el moment d'escriure això, una sola Nvidia A100 — el xip que "impulsa la cursa per la IA" — costa $6.715,00 a Amazon.

TurboScribe utilitza GPU per accelerar significativament la transcripció i fer més feina, més ràpidament.

Comparant els temps de transcripció

Comparem cadascun dels modes de TurboScribe en el nostre motor de transcripció impulsat per GPU transcrivint un fitxer d'àudio d'1 hora sobre la Segona Guerra Mundial.

Guepard

Guepard prioritza oferir transcripcions precises a la màxima velocitat, impulsat pel model "base" de 74 milions de paràmetres. Així és com es veu la transcripció del nostre fitxer d'àudio d'1 hora:

Això ha trigat només 20 segons. En altres paraules, és ràpid.

Dofí

Dofí, amb 244 milions de paràmetres, triga una mica més del doble (que segueix sent bastant ràpid):

Balena

Finalment, Balena triga uns 3 minuts en transcriure el mateix fitxer d'àudio d'1 hora (amb el massiu model Whisper "large-v2" de 1,55 mil milions de paràmetres):

Tingues en compte que els temps de transcripció poden variar lleugerament.

Per exemple, transcriure un fitxer de vídeo gran de 4 GB (amb 2 hores d'àudio) trigarà una mica més que un fitxer MP3 més petit de 100 MB amb les mateixes 2 hores d'àudio — això és principalment perquè hem de passar més temps transferint, analitzant, preprocessant i convertint el teu fitxer multimèdia abans de començar realment la transcripció.

Els fitxers d'àudio amb poca parla humana detectable (pensa en una gravació d'àudio amb molts períodes de silenci) normalment es poden transcriure més ràpidament. A més, transcriure múltiples fitxers també sol ser més ràpid que transcriure un sol fitxer.

Comparant la precisió

Per a molts fitxers d'àudio i vídeo comuns, no hi ha diferència entre Guepard, Dofí i Balena.

On Dofí i Balena realment destaquen és en casos on es requereixen pistes contextuals per desambiguar paraules que sonen similar.

Per exemple, en una gravació legal entretallada i ràpida amb alts nivells de soroll de fons, el terme "Habeas Corpus" va ser mal traduït com a "happy is porpoise" amb Guepard. No obstant això, basant-se en el context de la conversa circumdant (que incloïa altres termes legals), tant Dofí com Balena van determinar correctament que "Habeas Corpus" és la transcripció més probable.

Aquí tens un altre exemple: en una gravació d'àudio, una dona anomenada Kristina Hernandez es presenta i lletreja el seu nom.

Guepard transcriu incorrectament el seu nom com a "Christina" (en lloc de "Kristina"):

(Parlant 1) El meu nom és Christina Hernandez. Això s'escriu K R I S T I N A H E R N A N D E Z. (Parlant 2) Gràcies, Christina.

Dofí transcriu incorrectament el primer ús del seu nom, però corregeix el segon ús del terme (després que ella lletreja el seu nom):

(Parlant 1) El meu nom és Christina Hernandez. Això s'escriu K R I S T I N A H E R N A N D E Z. (Parlant 2) Gràcies, Kristina.

Balena encerta ambdós usos:

(Parlant 1) El meu nom és Kristina Hernandez. Això s'escriu K R I S T I N A H E R N A N D E Z. (Parlant 2) Gràcies, Kristina.

Millorant la precisió amb metadades

Hi ha casos on ni tan sols un traductor humà pot determinar inequívocament una transcripció correcta. Per exemple, si Kristina mai hagués lletrejat el seu nom, hauria estat impossible (basant-se només en l'àudio) determinar l'ortografia correcta del seu nom.

Per millorar encara més la precisió, TurboScribe utilitza metadades adjuntes als fitxers d'àudio i vídeo que puges (com el nom del fitxer, títol i descripció) per millorar automàticament les transcripcions de termes que no es poden determinar inequívocament basant-se només en l'àudio.

Per exemple, si les metadades del MP3 del títol, artista o comentari fan referència a "Kristina Hernandez", els 3 modes són molt més propensos a transcriure el seu nom correctament.

Conclusió

En resum, TurboScribe ofereix tres modes de transcripció:

Guepard proporciona transcripcions precises el més ràpidament possible.
Dofí busca l'equilibri perfecte entre precisió i velocitat.
Balena maximitza la precisió, però triga una mica més. És el mode predeterminat de TurboScribe.

La millor manera d'entendre realment les seves capacitats és provant-los tu mateix. Comença gratuïtament i transcriu fins a 4 fitxers d'àudio o vídeo gratuïtament cada dia.

TurboScribe