Olvídate del teclado por un momento. Llevamos décadas atados a las teclas y al ratón, pero la guerra de la inteligencia artificial en el escritorio acaba de dar un giro salvaje. Tras meses viendo cómo OpenAI y Anthropic movían sus fichas en los ordenadores de Apple, ahora es el turno de Google con su aplicación de Gemini para macOS. Y no, no es un simple acceso directo a su página web.
La compañía de Mountain View está preparando una actualización masiva centrada casi exclusivamente en la interacción por voz. Básicamente, la visión de Google es que tu Mac te escuche, te entienda y, lo más importante, actúe en tiempo real sobre cualquier programa que tengas abierto. Las primeras filtraciones de las versiones de prueba revelan al menos tres funciones inéditas que superan con creces lo que ya tenemos en la versión para smartphones.
El rediseño total: Gemini Live toma el control de la pantalla
Si miramos la nueva interfaz, Gemini Live ha sido rediseñado por completo en el cliente de escritorio. El objetivo es calcar la experiencia móvil para que el usuario no sufra ninguna fricción al cambiar de un dispositivo a otro.
Hablamos de un lienzo inmersivo a pantalla completa, presidido por ese característico punto central luminoso y con los controles ubicados estratégicamente en la parte inferior. Así de simple.
También te puede interesar:La Gente está Usando el Editor de Fotos de Gemini para Eliminar Marcas de AguaY es que esto refleja una estrategia clarísima por parte de Google: acabar con las interfaces fragmentadas. Quieren que charlar con la IA en tu ordenador de sobremesa sea tan natural y dinámico como hacerlo en tu teléfono mientras vas por la calle.
Dictado por voz a nivel de sistema: el verdadero salto evolutivo
Pero claro, una cosa es mantener una charla filosófica con un chatbot y otra muy distinta es que ese modelo trabaje para ti. Aquí entra en juego la joya de la corona: el dictado por voz integrado a nivel de sistema operativo.
Imagina la situación. Estás escribiendo un correo complejo, tirando líneas de código o redactando un informe. Pulsas un atajo de teclado rápido, invocas un panel flotante de Gemini y empiezas a soltar tus ideas en voz alta y sin filtros.
Al instante, la IA procesa ese torrente de palabras mal estructuradas y lo transforma en texto limpio, insertándolo exactamente donde tenías puesto el cursor. Actúa como un teclado de voz omnipotente superpuesto a todas tus aplicaciones. Ni se inmuta.
También te puede interesar:La Gente está Usando el Editor de Fotos de Gemini para Eliminar Marcas de AguaPor si fuera poco, puedes cambiar de pestaña o saltar entre distintos programas mientras dictas, y Gemini seguirá inyectando el texto donde corresponda. Te haces una idea del ahorro de tiempo brutal que supone esto para tareas de redacción intensiva.
La IA que mira por dónde vas: el retorno del puntero mágico
Evidentemente, para que un asistente de voz sea verdaderamente preciso en un entorno de ventanas, necesita contexto espacial. No basta con que procese tu audio, tiene que «ver» en qué estás trabajando.
En concreto, la segunda gran novedad es que Gemini tendrá la capacidad de seguir el elemento sobre el que reposa el cursor de tu ratón. Esto garantiza que tú y el modelo compartáis exactamente el mismo foco visual durante la interacción hablada.
Esta virguería técnica te sonará bastante si sigues el mundillo de cerca. Es un heredero directo de aquel concepto experimental del Magic Pointer que fue mostrado anteriormente por la propia gente de DeepMind. La ciencia ficción bajando por fin al producto de consumo.
Control remoto, el agente Spark y un mercado saturado
La tercera función rastreada en el código es la que más dudas levanta ahora mismo. Se trata de una opción en el menú diseñada expresamente para conectar tu cliente de Gemini con otros dispositivos macOS.
La hipótesis técnica más fuerte apunta a la posibilidad de que una instancia de tu escritorio acabe controlando a otra de forma remota. Una red de asistentes conectados.
A ello se le suma el plan maestro de Google a largo plazo: desplegar su agente autónomo, conocido como Gemini Spark, en los ordenadores de Apple. El fin último es reducir a cero la brecha de capacidades que hay entre la versión de navegador web y la aplicación nativa instalada.
La letra pequeña es que todas estas novedades están operando bajo una beta cerradísima. Si rascas un poco en comunidades de testers, como el Discord de DevMode, verás que solo un grupo muy reducido de usuarios está probando los límites de este sistema, por lo que la versión comercial podría llegar con ciertos recortes.
Lo que es innegable es que la guerra por dominar el escritorio está al rojo vivo. Con OpenAI apostando por su app nativa y Anthropic metiendo presión con funciones de automatización como Dispatch, Google tenía que dar un golpe sobre la mesa. Veremos si los usuarios de Mac están dispuestos a aparcar el teclado mecánico y empezar a dictarle órdenes al monitor.

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.











