Tryby transkrypcji, wyjaśnione

Dzisiaj zgłębiamy silnik transkrypcji TurboScribe, koncentrując się na jego trzech trybach transkrypcji – Gepard, Delfin i Wieloryb.

Jaka jest różnica między tymi trzema trybami? Oto skrót:

Gepard to najszybszy tryb. Transkrybuje 1 godzinę dźwięku lub wideo w 30 sekund. Jest dostrojony, aby dostarczyć ci transkrypcję tak szybko, jak to możliwe.
Delfin zapewnia bardzo wysoką dokładność, jednocześnie będąc bardzo szybkim. Transkrybuje 1 godzinę dźwięku lub wideo w około 3 minuty.
Wieloryb jest dostrojony dla maksymalnej dokładności. Transkrybuje 1 godzinę dźwięku lub wideo w mniej niż 10 minut.

Podczas przesyłania pliku możesz wybrać jeden z tych trzech trybów ( Wieloryb jest domyślnym trybem).

Który tryb powinieneś wybrać? Zalecamy rozpoczęcie od domyślnego trybu (Wieloryb) dla maksymalnej dokładności i przełączenie na Delfin lub Gepard, gdy potrzebujesz transkrypcji jeszcze szybciej.

Dla tych, którzy chcą lepiej zrozumieć, co dzieje się „pod maską”, zapraszamy do dalszej lektury.

Whisper: Więcej niż ucho dostrzeże

Przyjrzyjmy się bliżej Whisper, technologii AI stojącej za transkrypcją TurboScribe.

Whisper to nie tylko pojedynczy model AI; to właściwie rodzina pięciu modeli, z różnymi kompromisami między dokładnością a szybkością.

Na niskim końcu Whisper zaczyna się od modelu „tiny” (o „tylko” 39 milionach parametrów) i dochodzi aż do „large” (o 1,55 miliarda parametrów).

„tiny” jest najszybszy, ale popełnia najwięcej błędów. „base” i „small” są lepsze od większości ludzi. „large” jest najbardziej dokładny (porównywalny do profesjonalnych transkrybentów i tłumaczy), ale wymaga dużo pamięci i kosztownego sprzętu.

5 modeli Whisper

Rodzina Whisper zawiera 5 różnych modeli AI:

tiny — 39 milionów parametrów
base — 74 miliony parametrów (napędza tryb Gepard TurboScribe)
small — 244 miliony parametrów (napędza tryb Delfin TurboScribe)
medium — 769 milionów parametrów
large — 1,55 miliarda parametrów (napędza tryb Wieloryb TurboScribe)

Niestety, chyba że masz szczególnie wydajny komputer lub dostęp do mocnego GPU (jednostki przetwarzania grafiki), większość ludzi będzie miała trudności z efektywnym uruchomieniem modeli większych niż „base”.

GPU są sekretem szybkiej transkrypcji dźwięku. Niestety, są one również dość kosztowne. W chwili pisania tego tekstu jedna Nvidia A100 — chip „napędzający wyścig dla AI” — kosztuje 6 715,00 USD na Amazon.

TurboScribe używa GPU, aby znacznie przyspieszyć transkrypcję i zrobić więcej, szybciej.

Porównanie czasu transkrypcji

Porównajmy każdy z trybów TurboScribe na naszej platformie transkrypcji zasilanej przez GPU, transkrybując 1-godzinny plik audio o II wojnie światowej.

Gepard

Gepard priorytetuje dostarczanie dokładnych transkrypcji z maksymalną prędkością, napędzany 74-milionowym parametrem modelu „base”. Oto jak wygląda transkrypcja naszego 1-godzinnego pliku audio:

To zajęło tylko 20 sekund. Inaczej mówiąc, to szybkie.

Delfin

Delfin, o 244 milionach parametrach, trwa nieco ponad dwa rzy dłużej (co nadal jest dość szybkie):

Wieloryb

Na końcu Wieloryb zajmuje około 3 minutby transkrybować ten sam 1-godzinny plik audio (z masywnym modelem Whisper „large-v2”, o 1,55 miliarda parametrach):

Pamiętaj, że czas transkrypcji może się nieznacznie różnić.

Na przykład, transkrypcja dużego pliku wideo 4GB (z 2 godzinami audio) zajmie trochę więcej czasu niż mniejszego pliku MP3 o wielkości 100MB z tymi samymi 2 godzinami audio — głównie dlatego, że musimy poświęcić więcej czasu na przenoszenie, analizowanie, wstępne przetwarzanie i konwertowanie twojego pliku multimedialnego, zanim rozpoczniemy transkrypcję.

Pliki audio z małą ilością wykrywalnej mowy ludzkiej (pomyśl o nagraniu audio z dużą ilością cichych momentów) można zazwyczaj transkrybować szybciej. Ponadto transkrypcja wielu plików jest zazwyczaj szybsza niż transkrypcja jednego pliku.

Porównanie dokładności

Dla wielu popularnych plików audio i wideo nie ma różnicy między Gepard, Delfinem a Wielorybem.

Tam, gdzie Delfin i Wieloryb naprawdę błyszczą, to w przypadkach, gdy kontekstowe wskazówki są wymagane do rozróżnienia podobnie brzmiących słów.

Na przykład w urwanej, szybkopłynnej nagraniu prawniczym z wysoką ilością szumów term „Habeas Corpus” został niepoprawnie przetłumaczony jako „happy is porpoise” przez Gepard. Jednakże, na podstawie kontekstu rozmowy toczącej się wokół (która zawierała inne terminy prawne), zarówno Delfin, jak i Wieloryb poprawnie stwierdzili, że „Habeas Corpus” jest najbardziej prawdopodobną transkrypcją.

Oto kolejny przykład: w nagraniu dźwiękowym kobieta o imieniu Kristina Hernandez przedstawia się i literuje swoje imię.

Gepard niepoprawnie transkrybuje jej imię jako „Christina” (zamiast „Kristina”):

(Mówca 1) Moje imię to Christina Hernandez. To pisane jako K R I S T I N A H E R N A N D E Z. (Mówca 2) Dziękuję, Christina.

Delfin niepoprawnie transkrybuje pierwsze użycie jej imienia, ale poprawia drugie zastosowanie terminu (po tym, jak literuje swoje imię):

(Mówca 1) Moje imię to Christina Hernandez. To pisane jako K R I S T I N A H E R N A N D E Z. (Mówca 2) Dziękuję, Kristina.

Wieloryb poprawnie transkrybuje oba zastosowania:

(Mówca 1) Moje imię to Kristina Hernandez. To pisane jako K R I S T I N A H E R N A N D E Z. (Mówca 2) Dziękuję, Kristina.

Poprawa dokładności za pomocą metadanych

Są przypadki, w których nawet ludzki tłumacz nie może jednoznacznie określić poprawnej transkrypcji. Na przykład, gdyby Kristina nigdy nie przeliterowała swojego imienia, na podstawie samego dźwięku nie można byłoby jednoznacznie określić poprawnej pisowni jej imienia.

Aby jeszcze bardziej poprawić dokładność, TurboScribe używa metadanych dołączonych do twoich przesyłanych plików audio i wideo (takich jak nazwa pliku, tytuł i opis), aby automatycznie poprawiać transkrypcję terminów, których nie można jednoznacznie określić na podstawie samego dźwięku.

Na przykład, jeśli tytuł, artysta lub komentarz w metadanych MP3 odnosi się do „Kristina Hernandez”, wszystkie trzy tryby są znacznie bardziej skłonne do poprawnej transkrypcji jej imienia.

Podsumowanie

Podsumowując, TurboScribe oferuje trzy tryby transkrypcji:

Gepard zapewnia dokładne transkrypcje tak szybko, jak to możliwe.
Delfin dąży do doskonałej równowagi między dokładnością a szybkością.
Wieloryb maksymalizuje dokładność, ale trwa nieco dłużej. To domyślny tryb TurboScribe.

Najlepszym sposobem na zrozumienie ich możliwości jest samodzielne ich wypróbowanie. Rozpocznij za darmo i transkrybuj do 4 plików audio lub wideo każdego dnia za darmo.

TurboScribe