OpenAI transcribió un millón de horas de videos de YouTube para entrenar GPT-4

OpenAl creó un programa para transcribir más de un millón de horas de videos de Youtube con el objetivo de entrenar el modelo de generación de texto GPT-4, su modelo más avanzado abierto al público.

Lunes, 08 de abril de 2024 13:42

ALCANZASTE EL LÍMITE DE NOTAS GRATUITAS

Con la suscripción a Diario El Tribuno vas a acceder a todos nuestros contenidos.
Además, podés sumarte a Club El Tribuno para ahorrar en cientos de comercios.

¡Elegí el pack que más te guste!

Digital

$500/MES*

VER DETALLES

OCULTAR

Acceso ilimitado a EL TRIBUNO

Newsletter

Edición Impresa en formato PDF

Club EL TRIBUNO: 1 credencial, descuentos y beneficios

Promociones y actividades para suscriptores

Ejemplares en tu domicilio

Cartonazo

* Después de 3 meses pagás $5.000 por mes

Podés cancelar cuando quieras.

Promoción Vigente hasta 31/03/2026

Digital + Club El Tribuno

$1.000/MES*

RECOMENDADO PARA VOS

VER DETALLES

OCULTAR

Acceso ilimitado a EL TRIBUNO

Newsletter

Edición Impresa en formato PDF

Club EL TRIBUNO: 1 credencial, descuentos y beneficios

Promociones y actividades para suscriptores

Ejemplares en tu domicilio

Cartonazo

* Después de 3 meses pagás $7.600 por mes.

Podés cancelar cuando quieras.

Promoción Vigente hasta 31/03/2026

Diario de domingo + Digital + Club El Tribuno

$10.000/MES*

VER DETALLES

OCULTAR

Acceso ilimitado a EL TRIBUNO

Newsletter

Edición Impresa en formato PDF

Club EL TRIBUNO: 1 credencial, descuentos y beneficios

Promociones y actividades para suscriptores

Ejemplares en tu domicilio

Cartonazo

* Después de 3 meses pagás $4.300/Sem edición del domingo y lunes.

Podés cancelar cuando quieras.

Promoción Vigente hasta 31/03/2026

Cartonazo + Digital + Club El Tribuno

$7.500/MES*

VER DETALLES

OCULTAR

Acceso ilimitado a EL TRIBUNO

Newsletter

Edición Impresa en formato PDF

Club EL TRIBUNO: 1 credencial, descuentos y beneficios

Promociones y actividades para suscriptores

Ejemplares en tu domicilio

Cartonazo

*Después de 3 meses pagás $8.000 por mes

Podés cancelar cuando quieras.

Promoción Vigente hasta 31/03/2026

Escuchar esta nota - 00:00

Alcanzaste el límite de notas gratuitas
inicia sesión o regístrate.

Alcanzaste el límite de notas gratuitas

Nota exclusiva debe suscribirse para poder verla

OpenAI desarrolló un programa bautizado como 'Whisper' que extrajo texto de más de un millón de horas en videos para obtener datos de entrenamiento de modelos de generación de lenguaje, conocidos Como LLM.

La empresa mantuvo un debate interno sobre si la extracción de texto de los vídeos alojados en la plataforma propiedad de Google suponían una violación de términos de uso. Según el artículo, OpenAl consideró que necesitaba más datos de entrenamiento en 2021 y discutió si obteneros de Youtube, podcast o audiolibros.

En una reciente entrevista el consejero ejecutivo de YouTube, Neal Mohan, aseguró que si OpenAl ha usado vídeos de la plataforma para entrenar "Sora" su modelo de generación de vídeos realistas, estaría violando sus términos de servicio.

"Los creadores de contenido que vienen a Youtube tienen ciertas expectativas, entre ellas que los términos de servicio se cumplen. Nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta", explicó Mohan.
"No está permitido descargar las transcripciones o partes de los videos. Eso es una violación clara de nuestro términos de contenido", añadió el directivo.

La portavoz de OpenAI Lindsay Held indicó en una respuesta a la exclusiva obtenida por The Verge que la compañía crea bases de datos "únicas" y utiliza
"numerosas fuentes disponibles públicamente y realiza acuerdos para obtener dato que no es público".

Google transcribe los videos de Youtube para obtener texto para alimentar a sus modelos de generación de texto, algo que violaría los derechos de los creadores que suben sus videos a la plataforma, según fuentes consultadas por el diario.

Los derechos sobre el contenido usado para entrenar modelos de Inteligencia Artificial aún no están bien definidos y la competitividad para conseguir los mejores modelos de generación de contenido realista está llevando a empujar las fronteras de la legalidad en derechos de autor.

El gigante tecnológico Meta, creador de Facebook, debatió el año pasado si comprar la editorial Simon & Schuster para obtener acceso a su material de largo formato, según el contenido de reuniones entre gerentes, abogados e ingenieros de la compañía a los que tuvo acceso el NYT.

Temas de la nota

Chat GPT

Temas de la nota

Chat GPT