Uso de Whisper de OpenAI para transcribir videos

¿Qué es Whisper?

Whisper es un sistema de reconocimiento automático de voz (ASR) de código abierto (Open Source) desarrollado por OpenAI y entrenado con 680,000 horas de datos. Nos permite la transcripción en varios idiomas.

Tiene muchas utilidades en el mundo como:

Subtitulado en videos: Con capacidad de traducción en multiples idiomas.
Asistentes personales: Transcripción de reuniones, entrevistas o notas de voz.

Lo mejor es que no es complejo empezar a utilizarlo. Aquí tienes una guía paso a paso para dar tus primeros pasos.

¿Cómo utilizar Whisper?

Dependiendo de tus recursos técnicos y del nivel de privacidad que necesites, puedes elegir uno de estos tres caminos:

Google Colab

Puedes usar un cuaderno de Google Colab para ejecutar el código sin instalar nada en tu PC y utilizando las GPUs gratuitas de Google.

Instalación Local

Puedes instalar Whisper directamente en tu PC. Por ejemplo, en un procesador Ryzen 5 5600G con 16GB de RAM con el modelo base ha funcionado muy bien. Si tienes una tarjeta de video dedicada (NVIDIA), Whisper ira mucho mas rápido.

API de OpenAI

Si lo que buscas es integrar Whisper en una aplicación o no quieres gestionar servidores, la API es la solución. Aquí pagas por minuto de audio, pero es extremadamente económico.

Un pequeño ejemplo con Python:

from openai import OpenAI

client = OpenAI(api_key="TU_API_KEY_AQUI")

audio_file_path = "file.mp3"

with open(audio_file_path, "rb") as audio_file:
    transcription = client.audio.transcriptions.create(
        model="whisper-1", 
        file=audio_file,
        response_format="text" # "json" o "vtt" para subtítulos
    )

print(transcription)

Instalar en Linux y macOS

Para instalar Whisper necesitamos tener instalado Python y ejecutar el siguiente comando en tu terminal:

pip install -U openai-whisper

Es importante instalar ffmpeg, una herramienta de procesamiento multimedia, para leer archivos de audio y video.

En Ubuntu o Debian:

sudo apt update && sudo apt install ffmpeg

En MacOS con Homebrew:

brew install ffmpeg

Uso básico de Whisper

Una vez instalado, tendremos acceso al comando whisper desde la terminal. Para procesar un archivo, debemos usar el siguiente comando:

whisper archivo.mp4 --language English --model base

Parámetros principales:

--language: Define el idioma original del audio para mejorar la precisión.
--model: Selecciona el tamaño del modelo según tu hardware y necesidad de precisión. Los modelos disponibles son: tiny, base, small, medium, large.

Puedes obtener más información técnica y ver el código fuente en el repositorio oficial: https://github.com/openai/whisper

Ejemplo

Generación de transcripción de un video con Whisper.

Al ejecutar el comando se generan los siguientes formatos:

.txt: Solo el texto puro. Sin tiempos ni extras. Ideal para notas o
.srt: El estándar universal de subtítulos. Compatible con YouTube y reproductores de
.vtt: Similar al SRT, pero optimizado para reproductores web (
.json: Contiene todo (tiempos, precisión, metadatos). Solo para programadores y
.tsv: Formato de tabla (separado por pestañas). Ideal para abrir en Excel o Google Sheets.

Blog