Whisper, el OÍDO más POTENTE de la Inteligencia Artificial (y Open Source!)

Este es la IA de transcripción de texto más avanzada, y open source! Te enseño a usar Whisper para que tú también puedas usar gratis este impresionante sistema de speech-to-text de OpenAI.
-- ¡OTROS LINKS! --
► ¡NUEVO NOTEBOOK! Prueba WhisperX (70 veces más rápido!)
colab.research...
► Notebook Whisper (Google Colab)
colab.research...
► Whisper (Blog post)
openai.com/blo...
► Whisper (GitHub)
github.com/ope...
-- ¡MÁS DOTCSV! ---
📣 NotCSV - ¡Canal Secundario!
/ notcsv
💸 Patreon : / dotcsv
👓 Facebook : / ai.dotcsv
👾 Twitch!!! : / dotcsv
🐥 Twitter : / dotcsv
📸 Instagram : / dotcsv
- ¡MÁS CIENCIA! --
🔬 Este canal forma parte de la red de divulgación de SCENIO. Si quieres conocer otros fantásticos proyectos de divulgación entra aquí:
scenio.es/colab...

Пікірлер: 926

@DotCSV Жыл бұрын
¿Y vosotros, qué vais a construir con Whisper? ¡Escribídmelo en comentarios! Y no dejéis de registraros al Samsung Dev Day :)
@oldsprait163
Жыл бұрын
que es 👺💅
@joaquin8796
Жыл бұрын
mejorar mis apuntes, para mejorar mi estudio autodidacta ya sea ingles y programación
@pablocamargo1702
Жыл бұрын
Poder traducir algunas canciones que no tienen su letra publicada y suenan algo confusas
@HybridTheoryXero
Жыл бұрын
Con el cierre de subdivx, se hizo muy difícil conseguir los subtítulos de pelis y series. Está herramienta es genial para esa tarea porq encima genera un srt!
@joaquin8796
Жыл бұрын
@@HybridTheoryXero creo los subtítulos de cualquier película es posible de manera local, literal de película antiguas que solo se necesita una grabación y ya adios a los 20 min de busqueda de un buen subtítulo :U
@omarfernando7or Жыл бұрын
Yo soy cuadripléjico y es muy complicado dictar textos extensos con las herramientas que traen los dispositivos hoy en día espero que esta nueva tecnología nos puede ayudar y nos facilite el tema de poder redactar documentos
@Benaplay
Жыл бұрын
Y como escribiste el comentario?
@juanasensioalbaladejotorre5265
Жыл бұрын
@@Benaplay para escribir un comentario me imagino que se puede apañar con la función voz a texto, pero si hablamos de redactar textos más largos y a un nivel más profesional la verdad que las posibilidades al alcance se quedan cortas
@omarfernando7or
Жыл бұрын
@@Benaplay con el dictador
@omarfernando7or
Жыл бұрын
@@juanasensioalbaladejotorre5265 exacto
@bantoncreative
Жыл бұрын
supongo que podrias dictar y usar a Chat GPT para que te redacte (Supongo que lo podria hacer)
@gabi10111 Жыл бұрын
Yo ya he estado usando whisper para transcribir grabaciones de clases y es excelente, solamente habré tenido que cambiar 2 o 3 palabras entre cientos
@RyoukenDofus
Жыл бұрын
Podrias explicar como lo haces? Tengo clases grabadas de 2 horas, estuve probando pero no se terminan de subir nunca en el google colab
@Crisof
Жыл бұрын
@@RyoukenDofus Úsalo localmente y listo, si tienes un equipo gama media o alta va de lujo.
@the-ck-head6382
Жыл бұрын
@@Crisof Se puede usar con tarjeta grafica amd?
@DarioLopezPadial
Жыл бұрын
¿Se puede distinguir entre las diferentes voces que hablan?
@toncortiella1670
Жыл бұрын
@@Crisof Cómo se usa localmente? He estado buscando info y no encuentro nada, gracias!
@ancesai5627 Жыл бұрын
A los videos de este buen hombre primero se les da like, y luego se ven, con calma. :)
@Otakustenia Жыл бұрын
Suscribirme a este canal ha sido la mejor desición que he tomado este 2022. Dot gracias por traer este contenido a español ojalá a futuro podamos recompensarte todo tu trabajo.
@endetalle11
Жыл бұрын
Ya lo puedes hacer en su Patreon
@albertsallent
Жыл бұрын
@@endetalle11 ¡Bien dicho!
@SantiagoGonzalez-sl5lj Жыл бұрын
Utilicé esta tecnología con Google collab para transcribir una clase de donde estudio, que suben las clases grabadas en Audio. Es impresionante la verda lo bien que lo hace. Hay muchas partes en donde la profesora por ejemplo comienza una palabra y la corta. Y whisper se da cuenta que no la tiene que incluir. También maneja muy bien el tema de la puntuación. Así como está ahora ya es realmente muy útil
@carles_urena Жыл бұрын
Genial! Acabo de probarlo inventándome palabras y las ha transcrito bien, incluso poniendo acentos! Este era el texto: "Cuando la alburrea salió por la járcena, quiso saber si el milorfo estaba bien trempuchado". Eso significa que escucha bien lo que decimos y no busca simplemente un diccionario de palabras para poner la que mas se parezca!
@maia2486
Жыл бұрын
como un poema de Cortázar
@puntoycoma5006 Жыл бұрын
Gracias Carlos. Que te tomes todo este tiempo para compartir tus conocimientos con nososotros, que te tomes la molestia de " enseñarnos", darnos documentación etc.... no hace sino confirmar lo que todos sospechamos: Que eres una buena persona. Y yo creo que es lo mejor que se puede decir de alguien. Un saludo Carlos
@zapatillasiniestra Жыл бұрын
No puedo creer que desde hace dos semanas que vengo probando apps de live transcript para practicar mi speech en inglés y ahora vienen estos tipos y sacan esa herramienta que funciona mucho mejor que todas las otras app xd
@naimramirezolivencia4368
Жыл бұрын
A mí me ha pasado igual. Hace unos días andaba buscando como loca algo de esto!
@pedromiranda2388
Жыл бұрын
¿Pudiste conseguir que Whisper traducirá áudios en inglés y los transcribira en español?
@coordinadorselfie Жыл бұрын
Para enunciados de ejercicios y apuntes en educación funciona muy bien y nos ahorra tiempo. Muchas gracias por tu trabajo. May the force be with you
@agustinramos94 Жыл бұрын
Hace un par de dias estaba intentando entender whisper para poder transcribir los audios de mis clases, la verdad funciona bastante bien, no entiendo porque un audio en concreto detecta que es de Chino, pero bueno, entiendo que capaz las Clases de Quimica Organica se parezcan pero bueno
@aleacuna9154
Жыл бұрын
Iba a hacer un chiste con el Chang pero es orgánica jajaja
@pablopayabeltran4695
Жыл бұрын
me pasa igual pero en gallego
@PortedmossGames
Жыл бұрын
Como lo haces ? Las clases son largas? A mi solo me transcribe los primeros minutos de un video largo de 3 horas
@PortedmossGames
Жыл бұрын
@Isaac Baena García que va ,lo he dejado aparcado, solo hace unas 20 frases o así, si te fijas bien en el video ,ni la canción de Rosalía que le pone, la acaba completa(fíjate en la barra desplazadora).
@sebastianhuitronmartinez
Жыл бұрын
@Isaac Baena García Puse large en lugar de medium y solo me transcribio 8:51 de 1:30:18, a ti te lo transcribio completo?
@JM_Tushe Жыл бұрын
Madre mía, esta herramienta es increíble. Conforme explicabas yo estaba con la idea de que cualquier creador de contenido se había quedado sin excusas para colocar subtítulos, pero con los ejemplos que diste al final me dí cuenta de que sólo estaba viendo al árbol que tenía en frente y no al bosque entero… ¡Gracias por el vídeo! 🙏
@YehaTopsTopProfecional Жыл бұрын
Uff ame, justo me ayudo para transcribir el guión que tanto rato llevaba posponiendo 😂🤣 gran video! Este año esta siendo increíble, no puedo esperar a ver qué ocurrirá dentro de algunos meses!
@victorduchas Жыл бұрын
Gran vídeo! Yo lo he probado con audios muy exigentes (mal grabados, con mucho ruido de fondo, etc.) y los resultados dan miedo de lo buenos que son, tanto para transcripción como para traducción. Como montador de vídeo ahora solo espero que ojalá alguien se anime a crear un plugin para Avid/Premiere/DaVinci que nos permita usar el poder de Whisper directamente desde las pistas de audio del programa (o por ejemplo indicándole con un in/out qué segmento se quiere transcribir o traducir) y que automáticamente se creara una pista con los subtítulos ya añadidos y colocados donde toca. Yo ahora por ejemplo estoy trabajando de ayudante de montaje en un documental que cuenta con más de mil horas de bruto, todo en ruso o ucraniano, y la de tiempo y dinero en traductores que se ahorraría la productora con una herramienta así sería impagable!
@PortedmossGames
Жыл бұрын
Los has usado en videos largos ? A mi solo me transcribe unos minutos de un video de 3 horas
@EventTVok11 ай бұрын
Amigoooo!!! gracias, infinitas gracias, meses y meses probando paginas para tratar de traducir el audio de un video en chino y gracias a ti finalmente lo logré!!! tu tutorial es el único que me funcionó, me fue muy fácil y rapido, segui todos los pasos y descargué la traducción que despues traduci al español, mil gracias 👍👍👍
@ochotlacuache Жыл бұрын
Carlos, eres enorme y me haz facilitado la vida como no me imaginé. Acabo de usar tu notebook para transcribir una entrevista de 20 minutos y lo hizo perfecto. Hasta me dio una versión para subtitular el video con código de tiempo, que funciona!!!! Gracias mil
@dyoanima Жыл бұрын
Menuda barbaridad, esta herramienta es super potente, he conseguido transcribir con exactitud y detalle una serie completa que nunca recibio un fansub, la traduci al español con otra herramienta y ya esta, un .srt perfectamente traducido y con tiempo correctos, faltara probar con japones pero estop solo puede mejorar, una herramienta que te traduzca series, no puedo esperar
@sebastiangonzalezgauna7350
Жыл бұрын
Hola! como estas? quisiera saber cual fue la herramienta que utilizaste para traducir el srt a español !
@maickolxd4611
Жыл бұрын
@@sebastiangonzalezgauna7350 probablemente deepl, pero tienes k convertir primero el srt a docx y traducir y luego viceversa docx a srt
@centrointernetbds Жыл бұрын
Lo que se debe buscar es un modelo capaz de aislar el ruido y seguir varios discursos en un solo audio con diferentes voces superpuestas más ruidos, debe ser capaz de identificar las distintas, aislarlas, etiquetarlas y transcribirlas. Luego con un hardware de 3 micrófonos añadir la ubicación de fuente y el ser capaz de intuir el medioambiente dónde se genera el sonido, paredes, espacio abierto etc. Y para no pedir más, que pueda crear alguna tipo de representación gráfica del ambiente y las personas captadas.
@Crisof
Жыл бұрын
Jajaja no falta el que va flipao siempre. Me recuerdas a un cliente que buscaba un desarrollador móvil para una App que con la cámara del móvil escaneara a las personas y dieran un dictamen médico real jajaja por 50 pavos claro.
@AndresFelipe0402
Жыл бұрын
No es posible detectar el origen de un sonido sin un canal estéreo. Por algo tenemos dos orejas.
@AndresFelipe0402
Жыл бұрын
Por cierto el aislamiento de sonidos en diferentes frecuencias y de diferentes voces ya se ha hecho y es muy sencillo utilizando máscaras en representaciones en el dominio de la frecuencia como spectrogramas.
@centrointernetbds
Жыл бұрын
@@AndresFelipe0402 Claro, podria funcionar con 3 o mas microfnos, pero lo interesante aqui seria que se entrene. hay otros aspectos aparte de la triangulaicion, por la forma que se generan los ecos se puede determinar si hay una habitacion de que dimensiones y otros aspectos, con un buen entrenamiento es posible ir mucho mas alla de lo aparente.
@centrointernetbds
Жыл бұрын
@@AndresFelipe0402 Si el problema es el entorno natural, donde existen ruidos, no hablamos de musica profecional, si no de un entorno por ejemplo una carretera con ruidos diversos no planificados. creo que se puede, pero enteindo que au no se ha hecho a ese nivel.
@AlexCuan6 ай бұрын
No puede ser que hace año y pico de este video y sigues actualizando el cuaderno de colab. Siempre vengo aqui!! Te quiero bro, gracias❤
@joseluisortega951 Жыл бұрын
Lo acabo de utilizar para transcribir una charla de unos miembros de una comunidad agraria en Colombia, la grabación bastante mala de calidad, sin embargo, el resultado muy bueno. Impresionante los signos de puntuación. Muchas gracias, por compartir este conocimiento.
@albasky7502 Жыл бұрын
Alucinante; Hace falta que dicha tecnología llegue a los hogares. Sería estupendo que pudiesen romperse las barreras del idioma. También sería estupendo la posibilidad de poder guardar nuestras conversaciones en texto y poder hacer búsquedas como si se tratasen de un documento. El reconocimiento por voz para usuarios domésticos se ha estancado mucho, así que sería muy interesante ver el siguiente paso. Gracias por el vídeo y felicidades a todo el equipo por el canal. Un saludo!
@Axelbarrera15 Жыл бұрын
Mi futuro utópico con las IA es que en algún momento puedas escuchar canciones de un artista extranjero pero con un procesado de IA para escuchar la voz del mismo artista cantando en cualquier idioma sin alterar la música, y de ser posible en Spotify jajaja
@randyriverolarevalo2263
Жыл бұрын
spotifAi
@XaviIntheHouse
Жыл бұрын
@@randyriverolarevalo2263 patenta el nombre que te lo roban jajaj
@aveevadanaus
Жыл бұрын
Y mejor,que sea gratis!!!
@babblo
Жыл бұрын
No por dios, no!
@GonTar_X
Жыл бұрын
Terrible, imagina arruinar una canción cambiándole el idioma
@Diserpier Жыл бұрын
Adoré este video. Me suscribí desde que vi el de las imagenes. Esta serie de videos estan brutales. Me has salvado la vida ahora que tengo que me pusieron de secretario en reuniones de mi junta de trabajo en Alemán y el idioma a veces me carga. Con eso podré defenderme muy bien! Te debo la vida (y mi puesto haha)
@rafaelortega1376 Жыл бұрын
Sobre Google, tienen mucho que aprender y creo que están en hecho. Ya está abierta la inscripción en la whitelist de Ai test kitchen.
@madb55 Жыл бұрын
wow, simplemente wow, siempre traes chuladas pero ahora si se me cayó la mandíbula, ese nivel de comprensión, las traducciones, la puntuación y lo mejor Open Source! joyas tus vídeos
@carlosenriquechannel Жыл бұрын
Muchas gracias por la explicación y el notebook, lo he usado para crear material de formación, grande!!
@Gamer-ib4zs Жыл бұрын
He probado a traducir un audio en el que había un poema de por medio y es curioso como la IA ha sido capaz de identificar cuando empezaba y terminaba el poema para no traducirlo y dejarlo en el idioma original pero si traducir el resto del audio
@TheAlexis9998 Жыл бұрын
Interesante, estuve probando para transcribir hablando 3 idiomas en el mismo audio intercalándolo (español, inglés y portugués) Al principio dejaba de hacerlo cuando variaba el idioma. Lo intenté unas veces más y transcribía bien lo del español e inglés, pero el portugués lo confundía con español un poco y solo traté hacerlo con estos dos primeros idiomas y hacía la traducción directamente más que una transcripción de audio. Estuvieron interesantes las pruebas
@elementor85 Жыл бұрын
No sé si alguien más ya lo haya comentado, pero el cuaderno para transcribir está de lujo. Es genial que se pueda utilizar sin instalar demasiadas cosas en la PC. ¡Un saludo y muchas gracias por compartir este tipo de informaciones! Ya me he suscrito a tu canal. Por cierto, usé Whisper para escribir el comentario anterior. sería bueno que se pudiera usar en alguna app o algo para quienes no están muy familiarizados con Colab, pero por ahora este ha sido el resultado. :D
@yherok Жыл бұрын
14:15 Definitivamente fue lo que vino a mi cabeza, que quizás quiero hacer videos en mi idioma pero después traducirles todo a los demás me da un poco de tedio en subtítulos, esto ayudaría de una manera más precisa y rápida.
@nickbryan7863 ай бұрын
Infinitas gracias por facilitarnos este cuaderno de Collab! me está siendo muy útil para un proyecto que estoy haciendo. Aunque bueno, no siempre es perfecta y se tengan que corregir algunas palabras, igual se agradece. Saludos!
@sonoriuxo2437 Жыл бұрын
No se si otro comentario ya lo haya mencionado pero esto se acerca cada vez más al traductor universal de Star Trek, ahora sólo faltaría que fuera bidireccional y que cupiera en un dispositivo de oído cómo bluetooth y fuera bidireccional para que fuera una conversación en tiempo real.
@berserker6341
Жыл бұрын
Estaba buscando si alguien había pensado lo mismo, sería una brutalidad a comparación de por ejemplo una habitación holográfica generada por stable diffusion. Así como lograron la teletransportación cuántica, un dispositivo como el que planteas no esta muy alejado en el futuro. Y transformar energía en alimento la pegada total. Saludos!
@nadamas2000 Жыл бұрын
Una cosa interesante sería tener un manual para re-entrenar Whisper para idiomas o dialectos que no conoce o fortalecer los que estén "cojos", como pasó con Stable Diffusion. Para asociaciones culturales, gobiernos regionales o proyectos de protección de cultura indígena sería muy útil. A ver si Dot CSV se atreve. Seguro que alguno le mete idioma Klingon o Élfico 😂
@lestath2345
Жыл бұрын
Esperanto 🥵
@nadamas2000
Жыл бұрын
@@lestath2345 Silbo Gomero
@ariel_pedernera
Жыл бұрын
Claro. Lenguaje técnico, argot, o expresiones como modismos, jerga, etc.
@crow9283
Жыл бұрын
Seria util para poder traducir el Chileno.
@Astronaut_2001
Жыл бұрын
Pero para eso no habría que tener los audios con los textos transcritos como se entrenó a whisper? Xd para entrenar a whisper dijo que hubo aprox 700.000 hs de audio
@DJHUNTERELDEBASTADOR Жыл бұрын
Cuando dice que va hacer el tutorial 8:27, Recién mi like 😁😁
@HumbertoMesa Жыл бұрын
Descubrir este canal en 2023 me provoco un salto cuántico ... y justamente uso ChatGPT para estudiar fisica de particulas, estos video me abren mas las posibilidades. Por ejemplo este para llevar a texto varias conferencias de expertos. Gracias Carlos por tu trabajo de difusión 🇺🇾.
@diegoG21 Жыл бұрын
El santo grial de los dobladores de anime. Está aquí señores, hemos llegado.
@draxterpana
Жыл бұрын
fue lo primero que pensé jajajajajja. Solo tendrian que pasar el video a audio y pasar el audio a la IA
@MrKferi Жыл бұрын
El único fallo que tiene la herramienta son los timestamps. Son bastante genéricos, pues no indica en que segundo comienza cada token en el audio, sino que va por frases. Además, los modelos más grandes tienden a redondear los timestamps a números enteros. Existe un repo que intenta arreglar esto, se llama stable-ts
@albertsallent
Жыл бұрын
Muchas gracias por compartir esa información
@SR_M0L1NA Жыл бұрын
Sin duda Andrés Torrubia y tú tenéis toda la razón, esta herramienta tiene un potencial inmenso. Me has dejao flipando en colores.
@NachoGalvisRuiz Жыл бұрын
El archivo no subía; era una parte de una charla tomada de internet (copyright???), hice una lectura con mi voz y pasó. Gracias totales y ahora llegan ideas para uso. Saludos desde Colombia.
@jluispozo Жыл бұрын
Pues imagínate la utilidad para las deficiencias visuales o auditivas, Me imagino haber dispuesto de herramientas como esta en mi labor docente…¡”que pasada”!
@favioavena9218
Жыл бұрын
ahora un sordo con gafas te puede escuchar. leer, tecnicamente, pero incluso se puede configurar el texto para asociar el tamaño al volumen y la direccion del sonido con la posicion en la pantalla, incluso se puede asociar el timbre de la voz con un color, porque la experiencia de usuario seria tan completa que luego de años de usarlo te volverias tan experto que facilmente podrias tener una conversacion 100% fluida con cualquiera. Hasta ahora solo hablamos de como el sordo escucharia.. pero como siga avanzando la tecnologia y con esto de la interface cerebro maquina ya ni si quiera sé si haria falta. ya pronto nos van a poner wifi en el cerebro jaja
@elkylotv2927 Жыл бұрын
Supongo que podremos llegar a un futuro donde alguien no necesite aprender ningún idioma extranjero para comunicarse con personas de esa lengua, en tiempo real a través de una meet, ya que habrá subtítulos cuando esa persona se esté comunicando. Podrá facilitar mucho más la globalización si eso ocurre, permitiendo (por ejemplo) a personas que no son de habla inglesa enfocarse más en aprender las cosas pertinentes a su área y no tener que dedicar tiempo en el aprendizaje del inglés para acceder a todo tipo de trabajo deseado.
@alejandroggzz8833 Жыл бұрын
Me gustan mucho tus videos , creo que no tienes tantos suscriptores pero si una comunidad muy pendiente .
@martinbg3084 ай бұрын
Más que agradecido con el trabajo intelectual y técnico detrás de todo esto. Solo tengo gratitud hacia todos ustedes por esto. 🙌
@kfr4846 Жыл бұрын
En 10 años muchos sectores de tecnología no serán los mismos, cada vez nuestro avance es exponencial
@evangelion4ever
Жыл бұрын
En 5
@xlgabriel
Жыл бұрын
Hoy
@TheScienceOficial
Жыл бұрын
En 4,3,2,1
@lista_devideos_cursoscompl1338
Жыл бұрын
en -1 -2 -3
@TheScienceOficial
Жыл бұрын
@@lista_devideos_cursoscompl1338 te saltaste el cero
@josealfredo787 Жыл бұрын
Increible como siempre, aunque lo que mas espero es text to speech con ml que sea demasiado realista, aunque seguro lo usaremos mal pero igual seria genial tener la voz de narrador de pelis
@Crisof
Жыл бұрын
Ya existen hace años, aunque hay muchos modelos que son prácticamente realistas y nada que ver con Loquendo, obviamente son servicios de pago, el mismo Google tiene uno con voces bastante realistas y hasta tiene la opción de personalizar tu propia voz si quieres o de la persona que desees.
@xlgabriel
Жыл бұрын
@@Crisof Llevo buscando alguna librería para usar en python y reemplazar la voz de Windows que es muy robótica (la necesito en español), pero al parecer no existen. Quiero recrear una voz humana para mi GPT-3 simulando conversaciones
@josealfredo787
Жыл бұрын
@@Crisof las he probado e incluso las de pago es fácil darse cuenta que son generadas por máquina, al menos en español, en inglés por entonación neutra medio podrían pasar pero en español siento que no suenan como un humano normal
@natalifilms82585 ай бұрын
de todas las busquedas en google y en youtube este fue el unico lugar que me dio luz jajaj gracias me susbribo
@edgarcin95 Жыл бұрын
Quisiera que hablaras de más IAs que trabajan con Audio lamentablemente no es tan popular como las imágenes. Pero existen repositorios chidos de audio como Speechbrain o Asteroid. Personalmente he trabajado con Asteroid para separación de la guitarra de una canción.
@albertsallent
Жыл бұрын
Muchas gracias por compartir esa información
@TheScienceOficial Жыл бұрын
Deberían de hacer una IA que realice artículos científicos, osea que solo introduzcas los datos y te género un texto en inglés con coherencia, eso ayudaría al ámbito científico en la parte de redacción porque a veces se pierde mucho tiempo
@alandescudero1863
Жыл бұрын
ya serian mas faciles los doctorados 😅
@TheScienceOficial
Жыл бұрын
@@alandescudero1863 facilitaría mucho, pero a mí en lo personal se lleva mucho tiempo haciendo correcciones de una investigación ya realizada
@AndresFelipe0402
Жыл бұрын
Ya existe, ¿no has estado pendiente del lanzamiento de Gallactica?
@TheScienceOficial
Жыл бұрын
@@AndresFelipe0402 gracias por la información caballero, ya cheque y si tiene razón aunque me aparece que es más una IA de consulta de información porque fue entrenada con paper científicos
@perfectlinkota Жыл бұрын
estaba viendo el video de stable diffusion 2 y terminó y se puso este de forma automática: menuda recomendación!, esto es oro puro. Muchas gracias por tu tiempo, por tu dedicación, por fin algo de calidad , que es open.
@agusmigoyo Жыл бұрын
Probando la herramienta en el mismo video: 2022 será recordado como el año de Stable Diffusion, de Dali2, de increíbles modelos generadores de texto como Palm o generadores de código como Alpha Code. Y sin embargo, charlando el mes pasado con Andrés Torrubia, él me comentaba que lo más interesante que había visto este año era una inteligencia artificial que venía del laboratorio OpenAI, una IA llamada Whisper. ¿Qué es para ti de lo que ha salido este año lo más impresionante? Pues curiosamente, fíjate, curiosamente hasta ahora Whisper, yo creo. ¿Sabes por qué? Curioso, ¿eh? Por lo que me impresiona Whisper es que Whisper funciona, es como para mí Whisper, si fuera del coche autónomo, sería el primer self-driving del dictado. ¿Sabes? El primero que se parece a una persona. Bueno, pero para que entiendas tú primero qué es esto de Whisper, te voy a pedir que hagas el siguiente ejercicio. Te voy a reproducir un audio en inglés y tu tarea es transcribir cada una de las palabras que estés escuchando. ¿Estás listo? Tres, dos, uno. ¿Has entendido algo? Ya, yo tampoco. Pues a oídos de esta inteligencia artificial, esta es la transcripción perfecta que ha conseguido. ¿Y qué tal tu coreano? Bueno, pues para Whisper tampoco es problema y también puede transcribir este audio en perfecto inglés. Y bueno, también me entienda a mí. Esto que está viendo en pantalla ahora es el speech to text que consigue Whisper cuando le pasó la pista de audio que estás escuchando. Fíjate bien, no sólo consigue una transcripción casi perfecta, entendiendo incluso palabras concretas como Whisper o speech to text, sino que también es capaz de generar puntos, comas y otros signos de puntuación que a otros muchos modelos comerciales de reconocimiento del habla pues se les suele atragantar. Y esto es muy interesante. Bueno, no esto, sino Whisper. Whisper en general tiene muchas cosas interesantes. Y la primera cosa interesante es el contexto en el que esta herramienta aparece. Tras un año de increíbles logros por parte del laboratorio de inteligencia artificial de OpenAI, de repente de la nada surge una iniciativa colaborativa como Stability.ai que en septiembre toma por bandera el hacer open source, muchas de las tecnologías que OpenAI por su parte pues ha decidido guardarse para sí y compartir sólo bajo servicios de pago. Para mí esto tampoco es un problema, puesto que al final OpenAI como empresa pues tiene que pagar sus facturas y al menos nos está dando una forma de acceder a estas potentes inteligencias artificiales. Aprende Google. Pero claro, llega un muchachito nuevo a la ciudad y empieza a regalar caramelos a los niños y de repente el chico popular pues empieza a haber desplazado. Y en ese preciso momento llega a OpenAI de la nada y nos regala a Whisper para beneficio de todos. Porque sí, amigos, esto es open source. Que sé que os encanta escuchar estas palabras. Al final del vídeo voy a enseñar un mini tutorial para que veáis qué sencillo es utilizar esta herramienta y también os voy a compartir un notebook para que sea super sencillo para vosotros. Y esto es lo que hace a Whisper una herramienta super interesante, pero no es la única cosa. Y aquí es donde viene una de las cosas que más ha llamado mi atención y es que Whisper no es un complejo sistema que hayan diseñado para procesar audio como nunca antes había hecho o un sistema súper complejo con un montón de módulos de procesamiento. No. Whisper es esto de aquí. Una red neuronal de tipo transformer de las de 2017. No tiene ningún cambio, ninguna novedad. Es una arquitectura que ya, bueno, pues todos nosotros conocemos. Entonces, si esto es así, ¿por qué no existía ya una tecnología como Whisper? Pues la clave que hace a Whisper algo tan potente está en los datos y en cómo han estructurado su entrenamiento. Para entrenarlo, OpenAI ha utilizado ni más ni menos que 680.000 horas de audio con su correspondiente texto. Una brutalidad. Y es que si hacéis el cálculo 680.000 horas y empezar a reproducirlas ahora, acabarías de escucharla dentro de 77 años. Te podrías asegurar que en algún momento en el cielo verías surcar al cometa Halley. Pero es que además una cosa muy interesante es que estos audios vienen en múltiples idiomas, permitiéndonos poder entrenar a un modelo que es multilinguaje, que puede entendernos si hablamos en español, en inglés, en coreano... Da igual. Pero la cosa no se queda solo ahí y es que Whisper, además de ser un sistema multilinguaje, también es un sistema multitarea. Esta es una tendencia que, como ya vimos en el vídeo sobre gato, en el mundo del deep learning cada vez es más frecuente. No entrenar a la inteligencia artificial para una única tarea, sino entrenarla para varias diferentes, haciendo así que su aprendizaje sea mucho más sólido y robusto. Como hemos visto, Whisper puede tomar audios en inglés y transcribirlos al inglés, o audio en coreano y transcribirlo al coreano. Pero el mismo modelo también puede identificar qué lenguaje se está hablando, o actuar como un detector de voz para clasificar cuando en un trozo de audio se está escuchando o no a una persona. O también la tarea que más interesante me parece de todas, que tú le puedas hablar a Whisper en cualquier idioma y que él te lo transcriba automáticamente al inglés. Y en este caso no sabría deciros por qué, pero para mí esta me parece una funcionalidad fascinante. Parece que tampoco nos ofrece nada nuevo, no, al final tú puedes coger el texto que genera cualquier transcriptor de texto en tu idioma y pasarlo por un traductor. Pero en este caso me parece fascinante el ver cómo algo tan sencillo como un único modelo de deep learning te permite poder hablarle en cualquier idioma y que te genere el texto en inglés sin tener que combinar ningún tipo de herramientas. Es súper sencillo. Y lo de los datos que hemos comentado antes también es súper interesante, porque mi primera intuición aquí es que OpenAI, pues en la búsqueda de un dataset masivo de estas 680 mil horas de audio que tuviera una transcripción de texto para poder hacer este aprendizaje supervisado, pues posiblemente había acudido a una de las mayores fuentes que podemos encontrar en internet, que es KZread. Al final ya sabéis que todos los vídeos de KZread pues tienen generados subtítulos automáticamente.
@agusmigoyo
Жыл бұрын
Pues no, justamente en esto OpenAI hace mucho hincapié en su paper para explicarnos que han hecho un proceso de filtrado para eliminar del dataset cualquier aparición de texto generado por sistemas automáticos de reconocimiento del habla. ¿Por qué? Pues justamente para evitar que Whisper aprendiera también aquellos defectos, aquellos vicios que los otros sistemas automáticos también pudieran tener. Dicho esto, ahora que estamos hablando de Whisper y de KZread, hay una teoría que quiero contaros que me parece muy interesante, no es nada que esté confirmado, pero que podría explicar la razón de existir de esta herramienta y que podría tener cierta relación con un futuro GPT-4. Esta es una idea que escuché en el canal del doctor Alan Thompson y que dice que en un futuro próximo donde GPT-4 pues empezará a entrenar, Whisper podría ofrecer al sistema una enorme fuente de datos con la que sistemas anteriores no habían contado. Pensemos que un sistema como GPT-3 se ha entrenado con un montón de artículos de Wikipedia, de libros, de foros, de conversaciones de internet, pero nunca ha podido acceder a toda esa fuente hablada que puede estar en bases de datos como KZread. Una herramienta como Whisper podría ser utilizada para barrer por completo a KZread, transcribir muchos de sus audios y obtener de bloquear una nueva fuente de datos que antes no habría sido posible utilizar para entrenar a un futuro modelo del lenguaje. Este es el enorme valor que tiene una herramienta como Whisper y que creo que hace tan interesante esta tecnología. No, no resuelve una tarea que sea espectacular como generar imágenes o generar vídeo, pero resuelve una tarea muy útil y casi la resuelve hasta la perfección. Ojo, digo casi, no es perfecta, a veces algunas palabras se equivocan evidentemente y no cubre todos los lenguajes que existen en el planeta tierra y bueno, por buscar alguna limitación frente a otras herramientas comerciales, pues tampoco funciona en tiempo real, todavía procesar el audio dependiendo de la longitud pues te puede llevar unos cuantos segundos, a veces algún minuto, pero es una herramienta sólida, es madura, es útil y además open source, permitiendo que ahora cualquiera pueda acceder a una herramienta profesional de transcripción y traducción de texto, mejor que cualquier alternativa gratis. ¿Qué? Ah, que también vosotros queréis acceder a esta herramienta. Bueno, venga va, os preparo un tutorial facilito para que todos podáis utilizarlo, vamos a hacerlo en Google Collab. Pero antes y aprovechando que estamos hablando de programación, de desarrollo, de innovación, dejadme que os recuerde que quedan muy poquitos días para que se celebre el Samsung Dev Day, que es el evento tecnológico que celebra cada año la comunidad de Samsung Dev Spain, que es la comunidad oficial de Samsung para desarrolladores españoles. Este será un evento gratuito que no os podéis perder. Si estáis en Madrid podéis asistir presencialmente el día 16 de noviembre en el claustro de los gerónimos del Museo del Prado, y si no pues podéis conectaros online a través de su streaming, pero eso sí, hay que registrarse. Yo tuve la suerte el año pasado de poder participar con una ponencia sobre generación de código con inteligencia artificial y la experiencia fue genial. Así que ya lo veis, será un evento cargado de charlas geniales, hablando de tecnología, de innovación, de aplicaciones y además va a estar presentado por Midudev, que seguramente muchos de vosotros le conozcáis, así que no os lo podéis perder. Os voy a dejar abajo en la cajita de descripción un enlace a la página web de Samsung Dev Spain, donde vais a encontrar toda la información respecto a la agenda donde registraros y un montón de recursos más. Nos vemos el 16 de noviembre. Pues vamos a ver cómo podemos utilizar Whisper nosotros en nuestro propio código. Para esto vamos a utilizar Google Collab, ya sabéis que Google aquí nos está cediendo una máquina virtual gratuita que podemos utilizar y vamos a verificar siempre que tengamos activado el tipo de entorno con aceleración por hardware GPU. Vamos a darle aquí GPU, vamos a dar a guardar y ahora el primer paso será instalar a Whisper. Para ello vamos a usar estos dos comandos de aquí. Instalar, esto lo podéis encontrar en el propio repositorio de GitHub de Whisper, os voy a dejar abajo en la cajita de descripción estos comandos, le damos a ejecutar y dejamos que se instale. Una vez instalado, vamos a subir algún audio que queramos transcribir. Yo en este caso voy a probar con la canción de Rosalía de Chicken Teriyaki, vamos a colocarla para acá, la arrastramos y ahora el siguiente paso pues vamos a coger aquí y vamos a poner el comando necesario para poder ejecutarlo. Vamos a darle aquí a song.mp3, se llama el archivo que hemos subido, vale, song.mp3. La tarea va a ser transcribir el tamaño del modelo, hay diferentes tamaños según si quieres más velocidad a la hora de hacer la inferencia o si quieres más precisión en los resultados, yo por lo general trabajo con el modelo medium que es el que me da buenos resultados, hay modelos mayores, hay modelos menores, probad y en este caso pues simplemente donde vamos a colocar el archivo de salida, ejecutamos y ya está, ya está, no hay que hacer nada más, vale, ya estamos utilizando Whisper. La primera vez tardará un poco porque tiene que descargar el modelo pero a partir de este momento podéis utilizar este sistema para transcribir cualquier audio que queráis, mola. Vale, vemos que en este caso ha detectado que el idioma es español, ha hecho la inferencia automática porque no le hemos dicho que vamos a transcribir del español, lo podéis hacer si queréis y cuando ya está ejecutada esta celda pues podemos venirnos para acá, vemos que se ha generado la carpeta audio transcription y aquí tenemos las diferentes opciones, podemos abrir el song.txt y aquí le abrimos el archivo vemos que pues tenemos toda la canción perfectamente transcrita que en este caso siendo la rosalía pues tiene más mérito. Si en vez de querer hacer la transcripción quisierais hacer la traducción, es decir convertir vuestra voz, vuestro audio al inglés, pues lo único que tenéis que hacer es cambiar aquí la tarea por translate y en este caso Whisper trabajará para traducir aquello que ha transcrito. En este caso si os dais cuenta el comando que hemos utilizado ha sido el de consola pero a lo mejor queréis utilizar Whisper dentro de vuestro código, entonces también tenéis la opción de trabajar con la propia librería de Whisper, es simplemente esta línea de código de aquí, lo importamos, cargamos el modelo que queramos, aquí pues yo cargaría el modelo medium que es el que como digo funciona mejor para mi caso y con el modelo cargado, luego aquí llamamos a model.transcribe, vamos a poner aquí song.mp3, le damos a ejecutar y en cuestión de unos segundos pues ya tendremos de nuevo nuestra transcripción y aquí lo tenemos la rosalía, rosa sin tarjeta, se la mando a tu gata, te la tengo con roleta, no hizo falta serenata, pues ok. Igualmente para hacer la vida más fácil he preparado un notebook que podéis utilizar, está abajo en la cajita de descripción donde tenéis ya todo el código listo para empezar a trabajar, simplemente tenéis que entrar, comprobar que está la GPU activada, le damos a este botón de aquí para instalar pues todo lo necesario, aquí elegimos la tarea que queremos hacer, pues si es transcribir a cualquier idioma o traducir al inglés y le damos a ejecutar, en este caso la celda está preparada para que en el momento en el que empieces a ejecutarla, está grabando ahora mismo tu micrófono, es decir ahora mismo estaríamos generando un archivo de audio que luego vamos a utilizar para transcribir con Whisper, esto es por si queréis hacer una transcripción en tiempo real de cualquier clase o cualquier cosa que necesitéis.
@javierRC82857
Жыл бұрын
Metamos este input en GPT-3 y se crea la segunda parte del vídeo.
@enriquemontero74
Жыл бұрын
Mucho no , demasiado texto
@nikse2028
Жыл бұрын
@@enriquemontero74 lo aclaro al principio, es el resultado de probar whisper con el video de dot csv
@lista_devideos_cursoscompl1338
Жыл бұрын
Testing the tool in the same video: 2022 will be remembered as the year of Stable Diffusion, of Dali2, of incredible text generator models like Palm or code generators like Alpha Code. And yet, chatting with Andrés Torrubia last month, he told me that he interesting thing I had seen this year was an artificial intelligence that it came from the OpenAI lab, an AI called Whisper. What is the most impressive thing that has come out of this year for you? Well curiously, look, curiously so far Whisper, I think. You know why? Curious, huh? What impresses me with Whisper is that Whisper works, it's like for me Whisper, if it were an autonomous car, it would be the first self-driving of the dictation You know? The first one that looks like a person. Good, but for what? first you understand what this Whisper thing is, I'm going to ask you to do the next exercise. I am going to play an audio in English and your task is transcribe each of the words you are hearing. Are you ready? Three, two, one. Have you understood something? Yeah, me neither. Well, in the ears of this artificial intelligence, this is the perfect transcription you have gotten. And how about your Korean? Okay, Well, it's not a problem for Whisper and you can also transcribe this audio into perfect english. And well, he also understands me. What you are seeing on the screen now is the speech to text that Whisper gets when he passed her the audio track that you are listening. Look closely, not only does he get an almost perfect transcription, understanding even specific words like whisper or speech to text, but It is also capable of generating periods, commas, and other punctuation marks that to many other business models of speech recognition as they were usually chokes And this is very interesting. Well, not this, but Whisper. Whisper in general has a lot of interesting things. and the first thing interesting is the context in which this tool appears. After a year of incredible achievements by the artificial intelligence laboratory of OpenAI, suddenly out of nowhere a collaborative initiative like Stability.ai, which in September took up open source as its flagship, many of the technologies that OpenAI for its part has decided to keep to itself and share only under paid services. This is not a problem for me either. since in the end OpenAI as a company has to pay its bills and at the less is giving us a way to access these powerful intelligences artificial. Learn Google. But of course, a new boy arrives in town and he starts giving candy to the kids and suddenly the popular guy well he begins to have displaced. And at that precise moment he arrives at OpenAI from the nothing and gives us Whisper for the benefit of all. Because yes, friends, this it is open source. I know you love hearing these words. At the end of video I will show a mini tutorial so you can see how easy it is to use this tool and I am also going to share a notebook to make it super simple for you. And this is what makes Whisper a super tool. interesting, but it's not the only thing. And this is where one of the things that What has caught my attention the most is that Whisper is not a complex system that have been designed to process audio like never before or a system super complex with a bunch of processing modules. No. Whisper is this right here A neural network of the transformer type of those of 2017. It does not have no change, no news. It is an architecture that already, well, all we know. So, if this is so, why didn't there already exist a technology like Whisper? Well, the key that makes Whisper so powerful is in the data and how they have structured their training. To train it, OpenAI has used no more and no less than 680,000 hours of audio with his corresponding text. A brutality. And it is that if you do the calculation 680,000 hours and start playing them now, you would finish listening to it in 77 years. You could be sure that at some point in the sky you would see the Halley comet. But it is also that a very interesting thing is that these audios come in multiple languages, allowing us to train a model that is multilingual, that can understand us if we speak in Spanish, in English, in Korean... It doesn't matter. But the thing does not stop there and it is that Whisper, in addition to being a multilingual system, is also a system multitask. This is a trend that, as we already saw in the cat video, in the world of deep learning is becoming more and more frequent. Do not train the artificial intelligence for a single task, but to train it for several different, thus making their learning much more solid and robust. As we have seen, Whisper can take audios in English and
@Migueloco3000 Жыл бұрын
un traductor universal que te permita hablar con alguien de otro idioma en tiempo real, reproduciendo el texto que genera a la otra persona en su idioma y viceversa
@gustavofranciscocaballero5930 Жыл бұрын
Estimado, no te imaginas lo que busqué esta herramienta... es una cosa fantástica, acabo de transcribir las clases de facultad... maravilla
@josebravo3764 Жыл бұрын
Gracias por este tutorial de whisper me ahorrantes un montón de tiempo con esta app ya que para estudiar mejor a veces solía trascribir los videos del curso. Probé la app con un video de 3 minutos y lo trascribió de una manera impecable.👍👍
@Z3B3N Жыл бұрын
Estaría interesante poder instalarlo en local
@franpfdez Жыл бұрын
4:32 Parece que por fin los gallegos vamos a poder comunicarnos con la tecnología en nuestro idioma :)
@SandraGarcia-bt9dl Жыл бұрын
Increíble!!😵 Vi este vídeo ayer y justo hoy mi jefe me manda la tarea de transcribir un vídeo de nuestra web para rehacerlo. Estoy maravillada con los resultados de Whisper!! sólo tengo que preocuparme por los signos de puntuación y el formato. Muchas gracias por la info Carlos!! eres de lo mejorcito de KZread! ☺☺
@diegobanasco4410 ай бұрын
Volví después de 10 meses por este video, lo que me ayudo hoy, no tiene nombre
@enocd Жыл бұрын
Amo tus videos, estos me inspiran a estudiar la carrera física 💪💪😁😁😁
@xlgabriel
Жыл бұрын
La física no toca temas de I.A., te recomiendo estudiar directamente Ingeniería de Datos e Inteligencia Artificial, o Ingeniería de Software
@enocd
Жыл бұрын
@@xlgabriel si y no, gracias por la sugerencia, he analizado cuál ruta sería la mejor para mi… Me interesa hacer un doctorado en computación cuántica, hacer un grado en física y luego un máster en física computacional me acerca a mi meta, los algoritmos no de dejan de ser funciones y lógica matemática, no hay mejor forma de iniciar mi ruta de aprendizaje que desde las bases de lo que ahora es la computación moderna, matemáticas y física 😁😁😁
@everab1209
Жыл бұрын
Mucha suerte! Física no necesariamente toca los temas de matemática necesaria para algoritmos avanzados, pero como parece que vas intersado por computación cuántica lo veo buen plan. Qué gusto.
@enocd
Жыл бұрын
@@everab1209 gracias 😄😄
@bautibunge737
Жыл бұрын
@@xlgabriel Yo aprendi IA durante mi carrera de fisica, y ahora estoy viendo de entrar en alguna empresa del ambito, que ya varios colegas lo han hecho
@Dress4Excess Жыл бұрын
¿Hay alguna posibilidad de conseguir que Whisper transcriba y traduzca al español? He visto que Whisper creó automáticamente los .srt. Pensar en que pueda coger cualquier video en cualquier idioma y Whisper genere los subtítulos perfectamente sincronizados al español es algo que me vuela la cabeza.
@Boss_VR
Жыл бұрын
Las empresas de películas o videojuegos, no tendrán excusas de no poner subtítulos aunque sea en español🤣
@RRR-yp4is
Жыл бұрын
su implementación es fácil, pero yo prefiero usar manualmente transcriptores de srt y convertirlos a audio con un programa y están totalmente sincronizados. Sin duda que alguien ya debe haberlo hecho algo así con whisper y un modelo de text to speech, pero me da weba buscarlo
@ernestg7466
Жыл бұрын
La gente de Subtitle Edit, seria genial.
@MaGaO
Жыл бұрын
¿Nadie va a pensar en los grupos de subtítulos de anime?
@zabdielfrancisco
Жыл бұрын
Eso ya lo hace KZread no?
@ygoryarz Жыл бұрын
Ya estoy suscrito al canal, tengo activa la campanita, le dí like y quiero darle like otra vez jajaja, gracias por esta info me llegó en un momento necessario.
@TraskySim Жыл бұрын
Me parece super interesante para transcribir audios de clase. Que hacerlo a mano lleva una eternidad! Muchisimas gracias por el video, la info, los liks y por tu trabajo 🤩
@geroxima Жыл бұрын
Buenas Carlos, en el Notebook que dejaste para utilizar a Whisper, creo que hay un error en la zona de traducir por que esta puesto en "transcribe" y no "translate", osea creo jaja
@lea7802
Жыл бұрын
Venia a comentar lo mismo.
@fabianjuarez3205 Жыл бұрын
EXCELENTE CANAL. Te queria realiar la siguiente consulta ya que me gustaria orientacion. He construido a un robot tamaño de una persona similar a chappie y quiero que sea interactivo con las personas, que sea capaz de reconocer el audio de la persona que esta hablando con el robot y logre mantener una conversacion con la misma. Esto seria algo parecido a un chatbot solo que en vez de ser una comunicacion escrita seria hablada. Mi robot tiene incporporado una raspberry pi como computaora central.
@Teslaen2minutosElonMusk Жыл бұрын
Grande Carlos!!! Muy útil esta herramienta. Muchas gracias
@RogueBeatsARG Жыл бұрын
Esto para KZread va a ser lo mejor, mas si lo juntan con un sintetizador de voz que imite la voz del que hable pero en otro idioma
@sr.railn.m.667 Жыл бұрын
será posible re entrenarla, con un dataset más pequeño de un lenguaje que no conozca?
@jeisoncgalindo Жыл бұрын
Open Source ... justo lo que puedo pagar :v ... poco a poco te dejas de sorprender de tantos avances, pero es porque ya no llegas a asimilar todo lo que hacen las nuevas IA, te dejan pasmado
@sandyernestoescobaryero3919 Жыл бұрын
Recién he terminado de transcribir varias conferencias de las clases y puedo decir que esto es lo mejor que he probado, hay que hacer pequeñas correcciones, sin embargo, es muy buena. Excelente trabajo.
@halfrid Жыл бұрын
Como siempre, una maravilla lo que se puede aprender en este canal. Muchas gracias. Lo único malo, lo de la cicuta, al final del video, pero el mejor escribano también puede tener algún borrón.... Nadie es perfecto
@luisandraschnik3001 Жыл бұрын
Hola Carlos, qué diferencia hay entre este modelo y el de Mozilla Deepspeech? . Yo mismo doné mi voz para Mozilla Common Voice , que es utilizado para entrenar a Deepspeech.
@AndresFelipe0402
Жыл бұрын
Y eso que no has visto lo que hace wav2vec de META que entrena con tan poco como 100 horas y hace lo mismo además de haber salido hace dos años (una eternidad en tiempo de investigación).
@JavierYanizCiriza Жыл бұрын
Super interesante el vídeo!! He estado probando el Notebook que nos has regalado y veo que muchos de los audios en español los detecta como gallego (y esto condiciona a la transcripción) ¿Hay alguna manera de solucionar esto? Muchas gracias
@nelsonsanchez7279 Жыл бұрын
Súper interesante... Seguimos avanzando, y descubriendo nuevos usos para las IA 😎
@Y0Claudio Жыл бұрын
Genial. La estoy usando ahora en el trabajo, gracias. Retornaré como Patreon, jeje
@pabloruizlopez9493 Жыл бұрын
Buenas Carlos, muy buen vídeo... Estaba pensando en si sabes si hay alguna empresa tocha trabajando en la dirección contraria, de text-to-speech. Sería muy interesante saber algo de esto. Gracias!
@Crisof
Жыл бұрын
Hay decenas, el mismo Google tiene una muy buena.
@pabloruizlopez9493
Жыл бұрын
@@Crisof Muchas gracias Chistopher, lo sé, pero no son open source... :(
@armandoemanuelmartingarcia4904 Жыл бұрын
Podria usarse para crear una especie de traductor de idiomas en tiempo real, usando texto y audio
@ernestg7466
Жыл бұрын
Exactamente, romper la barrera idiomática. Te imaginas? 🤯
@delmo3580
Жыл бұрын
Los idiomas pasarían a ser algo vulgar y sin necesidad de estudiarse
@truman78
Жыл бұрын
Un audifono conectado con el móvil para que lo procese, pero para eso hace muuucha potencia en un telefono. Faltaran todavía muuuchos años, aunque dada la miniaturizacion de los transistores en los procesadores actuales, no se si será posible... Con un 7G y procesamiento en nube quizás
@thechanotv8202
Жыл бұрын
@@truman78 Lo mismo decian hace dos años sobre la generación de imagenes a traves de texto y mira ahora, la gente tiene miedo a que las IAs les quiten el trabajo xd
@stbannnsaa10 ай бұрын
Muchas gracias por facilitarnos este tipo de herramientas a quienes no sabemos mucho de programación.
@WalbertoFlores Жыл бұрын
Yo me he apoyado para terminar de revisar mis entrevistas de tesis doctoral. Empecé usando Descript sin saber que era una herramienta de IA por lo buena de la interfaz pero Whispear me dejó con impactado por la calidad de resultado. Al final siempre escuché toda la entrevista pero me ahorro muchas horas.
@BapuGonzalez Жыл бұрын
Métele una canción de Bad Bunny a ver qué manda
@Tami-ib4gi
3 ай бұрын
😂😂😂😂😂😂😂😂
@mariomendoza5061 Жыл бұрын
Solo vine para decirle al creador de este video que: "No uses la inteligencia artificial para generar violencia contra los animales" (como lo hizo al finalizar este video), ten tolerancia y respeto por los animales porqué no se los puede lastimar y tampoco alentar la violencia contra ellos.
@reencuentrosiempre-u6940
Жыл бұрын
Si, eso también me puso muy furiosa!!!, me indignó la actitud de este youtuber contra los animales. Que promuevan la violencia contra los animales usando AI y ademas se atreva a publicarlo en su video con tantas cosas que se puede hacer desperdicia ese tiempo en su video. Como seres humano podemos enojarnos y frusttaenobpero hay que aprender a controlarnos para no dañar a nuestro entorno como a los hermosos animales.
@ariel_pedernera Жыл бұрын
Tremendooo. Las aplicaciones posibles que has dicho me parecen que aportarían un valor increíble a la gente!
@Omwekiatl Жыл бұрын
6:55 que mind blown, eso es una bola de nieve, haría crecer a las IA exponencialmente :o
@LeunamOficial Жыл бұрын
¡Buenas Dot! Hace poco ha salido a la luz un nuevo proyecto por parte de nvidia, llamado: Nvidia’s Magic3D, es el uso de inteligencia artificial prompt text-to-img, pero lo increíble es que los resultados no son imagenes.png 2D, son modelos .obj, o assests directamente 3D, solo imagina las posibilidades🤯, una pulidita manual en blender a los modelos 3D que nos arroja la I.A y perfectamente se podrían usar en infinidad de proyectos: Renders, Animaciones, Videojuegos, Guías artísticas,etc. ¡Un saludo y abrazo!
@geomorillo Жыл бұрын
Para transcribir grabaciones de trabajo y hacer informes es muy util
@kcireorenom8430 Жыл бұрын
excelente vídeo, tu mejoras cada día también.
@Softimagge Жыл бұрын
Desde hace tiempo sueño con unos "audífonos" capaces de "entender" al vuelo las palabras de un interlocutor, transcribirlas y volvelas a convertir a voz, libres de cualquier ruido y/o interferencia, mejorando la dicción incluso, reproduciendo en otro timbre de voz que oiga mejor el interlocutor receptor, haciendo hincapié en palabras complejas, traduciendo.... Lo veo como el sueño de cualquier persona con problemas auditivos, con pérdida de función auditiva y/o deterioro cognitivo o incluso sin problemas. Estamos más cerca de esto. Audífonos 7.0
@alonsorojas3829 Жыл бұрын
Bien Carlos! Excelente información y gracias por el Notebook y hacernos las vida facil
@crow9283 Жыл бұрын
Esto le viene util a los que subtitulan series de TV o animes, lo unico que les seguiria tomando tiempo es sincronizar los subtitulos.
@xlgabriel
Жыл бұрын
Sería maravilloso algún código que te sincronice eso verificando el segundo exacto donde empieza a hablar la persona y donde termina, para calcular la duración del subtítulo a poner.
@DotCSV
Жыл бұрын
En el caso de Whisper también te saca el timestamp de cada segmento de audio e incluso te genera el archivo .srt listo para utilizar.
@crow9283
Жыл бұрын
@@DotCSV Nice. Puede que yo lo use para audiolibros. Llevo tiempo buscando audiolibros que vengan con el texto y no he tenido suerte.
@FelipeRojasPerucca Жыл бұрын
No solo un excelente tutorial, un notebook y un trabajo fantastico, muchas gracias.
Жыл бұрын
Bueno, mira, había una canción en inglés que quería transcribir desde hace años, pero ni los mismos ingleses la entendían. He usado tu "OpenAI Whisper - Adaptado por DotCSV" aunque he tenido que investigar un poco cómo subir mi propio mp3 y he ejecutado la instrucción esa para transcripción y te juro que me he emocionado al ver letra transcrita tan perfectamente sin problema después de tantos años. Sé que el mérito de escribir Whisper no es tuyo, pero sí lo es de hacer que alguien como yo lo descubra y pueda usar esta y otras herramientas como Dal·le 2, así que mil gracias. Y además de verdad.
@DiegoDominguezTapia
Жыл бұрын
¿Tienes algo por ahí con ás detalle sobre como subiste el MP3? ¿Sirve lo aprendido para subir las imágenes del entrenamiento de Stable Diffussion?
Жыл бұрын
@@DiegoDominguezTapia Pues basta con arrastrar el archivo a la izquierda de la ventana, sobre un icono que muestra una carpeta llamada Contenido.
@DiegoDominguezTapia
Жыл бұрын
@ si muchas gracias, ya me habían dado cuenta.
@sepptimber9126 Жыл бұрын
Maravilloso! Ahora podré descifrar que dicen las canciones de Black Metal que no tienen letra :)
@TheRChannel Жыл бұрын
La acabo de probar y es BRUTAL!!!!!! Incluso funciona muy bien transcrbiendo canciones,cosa que no se le da bien a los sistemas que hacen transcripciones automaticas. SIN PALABRAS
@teerrer.a.p4441 Жыл бұрын
Probe esta herramienta y me parece increible, gracias por traer esta IA magnifica, lo intente probar para videos de youtube y aunque transcribe de una manera casi perfecta lo unico que no encuentro solucion es que en caso de descargar el archivo str el texto que de subtitulo que se genera es largo, por ende se predice que va a decir y mi idea es traducir los videos pero que capte las palabras que decimos al momento
@fjmarcelo Жыл бұрын
Una idea que se me ocurre es que lo usemos para practicar inglés hablado. Si lo que dices se corresponde a lo que se transcribe, podemos decir tu pronunciación es correcta. En otro caso, a seguir el método del profesor Higgins.
@manclar Жыл бұрын
Muchisimas gracias, esta app de verdad cambiara desde hoy la forma en la que hago mi trabajo, eternamente agradecido contigo, esto es una maravilla!.
@freddyrujano3806 Жыл бұрын
Lo acabo de probar y es realmente impresionante la calidad de la transcripción. De un audio de 10 minutos solo tuve que corregir una palabra.
@droztitan Жыл бұрын
mira no sabes lo que aprecio este video, acabo de hacer una entrevista q tengo que transcribir. 1h de entrevista me habria tomado 3h mas o menos. Pero.... magia dot.csv viene a salvarte. Gracias en serio
@quierosalirjugando Жыл бұрын
Sos un genio dolape, cada vez más convencido que este es mí camino. Abrazo.
@pridefulobserver3807 Жыл бұрын
La suma de capacidades de distintas IAs en conjunto tiene un efecto exponencial en su desarrollo, estas cosas nos van a terminar construyendo reactores de fusion y naves espaciales.
@ManuelLoboSerra Жыл бұрын
Hola. He utilizado como input una grabación de voces en judeo español. Whisper las ha identificado como español y ha dado un resultado bastante aceptable.
@markgamboa8183 Жыл бұрын
Excelente tuto amigo, ya me re - suscribí esperando aprender mas, saludos desde COLOMBIA !!!