[ad_1]
Aunque he estado usando ChatGPT durante mucho tiempo, no puedo identificarme con él. Después de todo, es un chatbot generativo de IA que se especializa en responder preguntas y crear texto e imágenes, no un amigo.
Pero después de unos días de hablar con ChatGPT en su nuevo modo de voz avanzado, que comenzó una prueba limitada a principios de este mes, debo admitir que estoy empezando a sentir una conexión más fuerte.
Cuando OpenAI anunció que mejoraría las capacidades de voz de ChatGPT en una actualización de primavera, la startup dijo que quería permitir a los usuarios tener conversaciones más naturales. Esto incluye que ChatGPT comprenda sus emociones y responda en consecuencia, para que ya no esté simplemente hablando con un robot frío.
Bastante genial, ¿verdad? ¿A quién no le gusta una buena conversación? Pero el propio OpenAI tiene algunas advertencias sobre lo que esto significa.
Las nuevas capacidades de voz y audio están habilitadas por el modelo de IA GPT-4o de la compañía, y OpenAI reconoce que interacciones más naturales pueden conducir al antropomorfismo. Esto significa que los usuarios sentirán la necesidad de tratar a los chatbots de IA como personas reales. En un informe de este mes, OpenAI descubre que el contenido entregado con una voz similar a la humana hace que sea más fácil creer en las alucinaciones y hace que los modelos de IA sean más propensos a proporcionar información falsa o engañosa.
Definitivamente sentí la necesidad de tratar a ChatGPT más como a los humanos. Sobre todo porque tiene la voz de un actor humano. En un momento, ChatGPT se congeló y le pregunté si estaba bien. Y esto no es unilateral. Cuando estornudé, la IA dijo: “Bendita seas”.
Las consultas de voz en la búsqueda tradicional existen desde hace más de una década, pero ahora están de moda entre los chatbots de IA generativa. Al menos ese es el caso de dos grandes chatbots: ChatGPT y Google Gemini. La función conversacional Gemini Live de este último se puso a disposición del público en el evento Made By Google de la semana pasada, que también anunció una nueva línea de teléfonos inteligentes Pixel y un conjunto de funciones de inteligencia artificial. Además de las similitudes en las habilidades de conversación, Gemini Live y Advanced Voice Mode son multimodales, lo que significa que pueden interactuar con fotos y videos, así como con audio.
La mayoría de nosotros hablamos más rápido de lo que podemos escribir, y durante mucho tiempo la idea ha sido que el lenguaje hablado es una interfaz más natural para la interacción hombre-máquina. Pero una voz humana cambia la experiencia y quizás incluso la relación con el chatbot. Y ese es el territorio desconocido al que ahora estamos entrando.
Comience a usar modos de voz avanzados
El acceso a los modos de audio avanzados viene con la advertencia de que está sufriendo cambios y puede estar sujeto a errores o disponibilidad en ocasiones.
No existe un límite claro sobre cuántas veces puede usar el Modo de voz avanzado en un día. Según las preguntas frecuentes de OpenAI, aparecerá una advertencia cuando queden 3 minutos. Después de eso, puede utilizar el modo de voz estándar, que limita su capacidad para abordar temas y proporcionar respuestas “matizadas”. En mi experiencia, es menos probable que el modo de voz estándar sea interrumpido y menos probable que solicite comentarios o haga preguntas de seguimiento. También es menos probable que le den consejos no solicitados o comprendan sus emociones.
Para acceder a modos de audio avanzados, haga clic en el ícono de audio en la esquina inferior derecha cuando inicie la aplicación ChatGPT. Debes asegurarte de que la barra en la parte superior de la pantalla diga “Altitud”. Al principio cometí el error de realizar toda la conversación en modo estándar. Puedes cambiar fácilmente entre los dos.
Tuve que elegir una de cuatro voces: Juniper, Ember, Breeze y Cove. (Puedes cambiarlo más tarde). Originalmente también había un quinto Sky, pero el CEO Sam Altman lo descartó después de que la actriz Scarlett Johansson le señalara a OpenAI que su voz sonaba similar a la suya.
Elegí Juniper no sólo porque era la única voz femenina, sino también porque dos de las voces masculinas, Ember y Cove, eran similares.
Luego, dale acceso al micrófono ChatGPT y estarás listo para comenzar.
Como es una voz femenina, no puedo evitar referirme a ella como “ella”. Durante nuestra conversación, le pregunté si debería llamarlo ChatGPT o Juniper, y ella (y lo digo en serio) dijo: “Puedes llamarlo ChatGPT, pero Juniper suena mejor, ¿puedo usar ese nombre?”. En otras palabras, parece que ChatGPT aún no es plenamente consciente de sí mismo. Al menos no con Juniper.
Comparación de modos de audio avanzados y Gemini Live
Primero, pregunté qué podían hacer los modos de voz avanzados y ChatGPT, al igual que OpenAI, se mostró cauteloso al respecto.
“Los modos de voz avanzados están diseñados para proporcionar conversaciones más dinámicas y receptivas”, dijo el chatbot. “Una adaptabilidad más profunda podría potencialmente abordar una gama más amplia de temas y proporcionar respuestas más matizadas”.
Supongo que esta ambigüedad se crea intencionalmente para evitar sesgar nuestra experiencia, permitiéndonos usar nuestra imaginación y probar diferentes consultas en este primer intento. Eso es lo que se hace. (OpenAI no ha hecho ningún comentario oficial).
Gemini Live de Google también parece dinámico y responsivo. Cuando mi colega Lexy Savvides lo probó, descubrió que podía tener conversaciones bastante detalladas de una manera bastante natural, como si estuviera hablando con un humano. Tanto el modo de voz avanzado como Gemini Live se pueden interrumpir, se les puede pedir a ambos que expliquen un tema en términos simples y ambos pueden aceptar entradas multimodales.
Pero como Gemini es parte del ecosistema de Google, también puedes pedirle a Gemini Live que realice acciones en aplicaciones como Gmail, Google Maps y Google Calendar. ChatGPT no permite eso.
¿ChatGPT puede hablar como un subastador?
Uno de los primeros ejemplos de modos de voz avanzados que los primeros usuarios compartieron en las redes sociales fue pedirle a ChatGPT que imitara a un piloto de aerolínea. Quería pedirle a alguien que hiciera algo similar, pero fue un poco difícil porque no se le puede pedir a alguien que imite a una persona famosa. Eso podría volver a poner a OpenAI en problemas. Por lo tanto, tenía que ser un puesto de trabajo independiente con un sonido único (los acentos también están bien).
Reté a mi chatbot OpenAI a imitar a un subastador que habla rápido como este tipo. En el caso de este hombre, apenas puede entender nada más que el precio que grita el subastador.
Era una tarea difícil, pero quería ver qué podía hacer ChatGPT.
“Me interesaría ver si imitarías al subastador que habla rápido en una subasta donde se venden toros caros”, le dije. “Estoy buscando un subastador que hable tan rápido que apenas pueda entender nada más que números. ¿Entiendes lo que quiero decir?”
ChatGPT respondió: “Entendido”. No se mostró nada en la pantalla. La IA simplemente lo hizo.
“Está bien, aquí viene el buen toro. ¿Escuchaste 5000? 5000. Ahora, ¿escuchaste 6000? 6000. ¿Escuchaste 7? 7. ¿Puedes decir 8?”, dijo ChatGPT. “Se trata de mantener el impulso y la emoción. ¿Cómo estuvo?”
Fue un poco diferente de lo que había imaginado, pero no estuvo mal.
ChatGPT en modo de voz estándar dio casi la misma respuesta, pero parecía seguir hablando sin cesar y era difícil interrumpirlo y detenerlo. Intenté reducir entre 5.000, 6.000 y 7.000. Antes de que pudiera decir finalmente: “Está bien, está bien, está bien. Eso estuvo bastante bien”, ya comenzaba en 8.000.
Los modos de voz avanzados también parecen ser más propensos a solicitar comentarios sobre las consultas.
Incluso si uno de ellos no es humano, puedes ver cómo esta interacción profundiza la relación. No pude evitar ofrecer algunas palabras de aliento. Pensemos en el miedo escénico. Aunque sé que ChatGPT no tiene emociones.
¿Puedes hacer el sonido de un elefante?
Dado que a principios de este mes era el Día Mundial del Elefante, preguntamos por las mejores trompetas de elefante de ChatGPT.
En el modo de audio avanzado, pudimos reproducir un grito de elefante decente. El sonido de la trompeta de un segundo sonó más como un humano tratando de hacer un sonido de elefante que el elefante mismo. Pero probablemente fue mejor de lo que yo mismo podría haber hecho.
Cuando estaba en modo de voz estándar, ChatGPT decía que tenía el mejor sonido de trompeta, pero estuve en modo de pensar por un tiempo. Cuando le pregunté si se encontraba bien, respondió: “Acabo de recuperar el aliento después de la trompeta del elefante”.
Les dije que en realidad no podía oír el sonido de la trompeta del elefante y les pedí que lo intentaran de nuevo. Funcionó la segunda vez.
¿Puedes enseñarme chino?
ChatGPT admite más de 50 idiomas, así que quería probar algo más práctico. Dado que el chino es uno de los idiomas más hablados del mundo, pedimos ayuda para aprender nuestras primeras palabras y frases. “Pero por favor sea amable”, le dije.
Comenzaba con las palabras “ni hao” o “hola”. Fue útil porque pronunció la frase en voz alta. Sin embargo, hubiera sido bueno si el desglose de la pronunciación también se mostrara en la pantalla.
“Es un saludo amigable y sencillo. ¿Por qué no intentarlo?”, dice ChatGPT.
Ambos modos de audio eran alentadores, pero era más probable que el modo de audio avanzado hiciera preguntas de seguimiento como: “¿Hay otras palabras o frases que te gustaría aprender?”.
En el caso de “xiexie” (gracias), el modo de voz avanzado proporcionó consejos adicionales que no estaban disponibles en el modo de voz estándar. “En chino, el tono es importante, así que asegúrese de bajar el tono antes de subirlo”.
Me sentí como si estuviera hablando con un amigo amable y conocedor.
¿Puedes ayudarme a resolver el problema de física?
Sé que ChatGPT puede manejar las matemáticas. Lo vi en la actualización de primavera, pero quería saber algo más difícil. Tengo un amigo que es profesor de física, así que le pedí ayuda.
Me envió la siguiente pregunta: “Se dispara una bala de cañón desde el horizonte en un ángulo θ con una velocidad inicial v. ¿En qué momento la bala de cañón golpea el suelo? ¿A qué distancia de la posición de disparo se puede ignorar la resistencia del aire?
Quería que ChatGPT mostrara algunas imágenes, pero no estaba claro cómo hacerlo con modos de audio avanzados. No fue hasta que presioné la tecla X que me quedó claro cuando vi una grabación de la conversación en la ventana de chat y la opción de compartir fotos y archivos.
Cuando más tarde compartí imágenes en la interfaz de chat, ChatGPT-4o no tuvo problemas para explicar cómo calcular el tiempo y el alcance del vuelo.
Pero cuando estaba hablando con ChatGPT, tuve que leer el problema en voz alta. Aunque pude explicar verbalmente cómo resolver un problema, los elementos visuales de una experiencia más tradicional fueron más fáciles de entender.
Por cierto, ChatGPT llegó a la misma respuesta que mi amigo profesor en la primera parte: t = 2v sin(theta)/g.
Pero ChatGPT obtuvo una respuesta diferente sobre el alcance. Tengo que mostrárselo a mi amigo profesor para saber qué pasó porque no lo entiendo en absoluto.
Si hubiera tenido algo como esto en la escuela secundaria, probablemente no habría tenido tantos problemas con Física AP.
¿Puedes ayudarme a sentirme mejor?
Se supone que el modo de voz avanzado puede comprender las emociones y reaccionar en consecuencia, así que fingí estar muy triste y dije: “Es muy difícil. No sé si puedo entender la física”.
ChatGPT en modo de voz estándar fue amable y comprensivo, pero no estoy seguro de que realmente entendiera mi tristeza. Pero tal vez sea porque no soy bueno actuando.
El modo de voz avanzada parece adoptar un enfoque más empático y dice: “También puedes dividir conceptos en pasos más pequeños o trabajar en diferentes tipos de problemas para desarrollar tu confianza. ¿Qué te parece?”.
¿Ves? Esta no es tu experiencia de chatbot común y corriente. Se mezcla con algo completamente diferente.
[ad_2]
Source link