전사 모드 설명

오늘은 TurboScribe의 전사 엔진에 대해 심층적으로 알아보고, 치타, 돌고래, 고래라는 세 가지 전사 모드에 대해 집중적으로 살펴보겠습니다.

이 세 가지 모드는 어떻게 다를까요? 요약은 다음과 같습니다:

치타는 가장 빠른 모드입니다. 1시간의 오디오나 비디오를 30초 만에 전사합니다. 가능한 한 빠르게 전사문을 제공하도록 조정되어 있습니다.
돌고래는 매우 높은 정확도를 제공하면서도 여전히 매우 빠릅니다. 1시간의 오디오나 비디오를 전사하는 데 약 3분이 걸립니다.
고래는 최대 정확도를 위해 조정되어 있습니다. 1시간의 오디오나 비디오를 10분 이내에 전사합니다.

파일을 업로드할 때 이 세 가지 모드 중에서 선택할 수 있습니다( 고래가 기본값입니다).

어떤 모드를 선택해야 할까요? 최대의 정확도를 위해 기본값(고래)으로 시작하고, 더 빠른 전사가 필요할 때에는 돌고래나 치타로 전환하는 것을 추천드립니다.

TurboScribe의 전사 엔진의 동작 원리를 더 잘 이해하고 싶은 분들은 계속 읽어주세요.

Whisper: 귀로 듣는 것 이상의 것

TurboScribe의 전사 기술의 기반이 되는 Whisper를 자세히 살펴보겠습니다.

Whisper는 단일 AI 모델이 아니라, 정확도와 속도의 다양한 절충점을 가진 다섯 개의 모델로 구성된 가족입니다.

Whisper는 "tiny" 모델(39백만 파라미터)에서 시작하여 "large" 모델(1.55십억 파라미터)까지 다양한 크기의 모델을 제공합니다.

"tiny" 모델은 가장 빠르지만, 오류가 가장 많습니다. "base"와 "small" 모델은 대부분의 사람들보다 좋습니다. "large" 모델은 가장 정확하여(전문 전사자 및 번역가에 비견됨), 많은 메모리와 고가의 하드웨어가 필요합니다.

Whisper의 5개 모델

Whisper 가족은 5개의 다른 AI 모델로 구성되어 있습니다:

tiny — 39백만 파라미터
base — 74백만 파라미터 (TurboScribe의 치타 모드를 지원)
small — 244백만 파라미터 (TurboScribe의 돌고래 모드를 지원)
medium — 769백만 파라미터
large — 1.55십억 파라미터 (TurboScribe의 고래 모드를 지원)

안타깝게도, 특별히 강력한 컴퓨터나 고성능 GPU(그래픽 처리 장치)를 갖추지 않은 이상, 대부분의 사람들은 "base" 모델보다 큰 모델을 효율적으로 실행하는 데 어려움을 겪을 것입니다.

속도 빠른 오디오 전사의 비결은 GPU입니다. 안타깝게도, 이들은 매우 고가의 장비입니다. 작성 당시, 단일 Nvidia A100 — "AI 경쟁을 주도하는" 칩 — 의 비용은 아마존에서 $6,715.00입니다.

TurboScribe는 전사 속도를 크게 높이고 더 많은 작업을 빠르게 처리하기 위해 GPU를 사용합니다.

전사 시간 비교

TurboScribe의 모든 모드를 비교하며, GPU로 구동되는 전사 엔진으로 1시간 분량의 제2차 세계대전 관련 오디오 파일을 전사해보겠습니다.

치타

치타는 74백만 파라미터 "base" 모델을 기반으로 최대 속도에서 정확한 전사를 제공합니다. 1시간 분량의 오디오 파일을 전사하는 데 걸린 시간은 다음과 같습니다:

단 20초만 걸렸습니다. 다시 말해, 정말 빠릅니다.

돌고래

돌고래는 244백만 파라미터를 사용하여, 두 배 이상의 시간이 걸리지만 여전히 꽤 빠릅니다:

고래

마지막으로, 고래는 1.55십억 파라미터 Whisper "large-v2" 모델을 사용하여 1시간 분량의 오디오 파일을 전사하는 데 약 3분이 걸립니다:

전사 시간은 약간씩 변동할 수 있습니다.

예를 들어, 4GB의 대형 비디오 파일(2시간 분량의 오디오)을 전사하는 데는 100MB의 작은 MP3 파일(2시간 분량의 오디오)을 전사하는 것보다 약간 더 많은 시간이 걸립니다. 이는 주로 미디어 파일을 전사하기 전에 전송, 분석, 전처리 및 변환하는 데 더 많은 시간이 필요하기 때문입니다.

사람의 음성이 거의 감지되지 않는 오디오 파일(예: 침묵 구간이 많은 오디오 녹음)은 일반적으로 더 빨리 전사됩니다. 또한, 여러 개의 파일을 전사하는 것도 단일 파일을 전사하는 것보다 일반적으로 더 빠릅니다.

정확도 비교

많은 일반적인 오디오 및 비디오 파일의 경우, 치타, 돌고래, 고래 사이에 차이가 없습니다.

돌고래와 고래가 빛나는 곳은 맥락적 단서가 필요한 유사한 소리가 나는 단어를 구별해야 하는 경우입니다.

예를 들어, 많은 배경 소음이 있는 잘린, 빠르게 진행되는 법적 녹음에서, 용어 *"Habeas Corpus"*는 치타로 "happy is porpoise"로 잘못 번역되었습니다. 그러나 다른 법적 용어가 포함된 대화의 맥락을 기반으로, 돌고래와 고래는 "Habeas Corpus"가 가장 가능성 있는 전사임을 올바르게 확인했습니다.

다른 예를 들면: 한 여성이 자신을 소개하고 이름을 철자하는 오디오 녹음에서의 예입니다.

치타는 그녀의 이름을 "Christina"로 잘못 전사했습니다("Kristina" 대신):

(화자 1) 제 이름은 Christina Hernandez입니다. 철자는 K R I S T I N A H E R N A N D E Z입니다. (화자 2) 감사합니다, Christina.

돌고래는 그녀의 이름의 첫 번째 사용을 잘못 전사했지만, 이름을 철자한 후 두 번째 사용을 올바르게 수정했습니다:

(화자 1) 제 이름은 Christina Hernandez입니다. 철자는 K R I S T I N A H E R N A N D E Z입니다. (화자 2) 감사합니다, Kristina.

고래는 두 번의 사용 모두를 올바르게 전사했습니다:

(화자 1) 제 이름은 Kristina Hernandez입니다. 철자는 K R I S T I N A H E R N A N D E Z입니다. (화자 2) 감사합니다, Kristina.

메타데이터를 통한 정확도 향상

심지어 인간 번역가조차도 올바른 전사를 애매하게 판단할 수 없는 경우가 있습니다. 예를 들어, 만약 Kristina가 이름을 철자하지 않았다면, 오디오만으로는 그녀의 이름의 정확한 철자를 판단하는 것이 불가능했을 것입니다.

정확도를 더욱 높이기 위해, TurboScribe는 업로드된 오디오 및 비디오 파일에 첨부된 메타데이터(파일 이름, 제목, 설명 등)를 사용하여 오디오만으로는 명확히 판단할 수 없는 용어의 전사를 자동으로 향상시킵니다.

예를 들어, MP3 메타데이터 제목, 아티스트, 또는 댓글에 "Kristina Hernandez"가 언급되면, 모든 모드가 그녀의 이름을 올바르게 전사할 가능성이 훨씬 높아집니다.

마무리

요약하자면, TurboScribe는 세 가지 전사 모드를 제공합니다:

치타는 가능한 한 빨리 정확한 전사를 제공합니다.
돌고래는 정확도와 속도 사이의 완벽한 균형을 목표로 합니다.
고래는 최대의 정확도를 추구하지만, 시간이 좀 더 걸립니다. TurboScribe의 기본 모드입니다.

그 기능을 진정으로 이해하는 가장 좋은 방법은 직접 이용해 보는 것입니다. 무료로 시작하여 하루에 4개의 오디오 또는 비디오 파일을 무료로 전사해보세요.

TurboScribe

Whisper: 귀로 듣는 것 이상의 것

Whisper의 5개 모델

전사 시간 비교

치타

돌고래

고래

정확도 비교

메타데이터를 통한 정확도 향상

마무리

TurboScribe 소개

전사를 시작할 준비가 되셨나요?