Tehnologie09 iun. 2026
Google lansează Gemini 3.5 Live Translate pentru traducere vocală aproape în timp real - disponibil în Google Translate, în preview pentru dezvoltatori și în testare în Google Meet
Google extinde traducerea vocală aproape în timp real în peste 70 de limbi prin noul model Gemini 3.5 Live Translate, pe care îl duce simultan către dezvoltatori (prin API), companii (în Google Meet ) și publicul larg (în Google Translate), potrivit Google Blog . Miza practică: traducere „speech-to-speech” (voce-la-voce) cu întârziere de câteva secunde, fără pauze stânjenitoare, ceea ce poate schimba modul în care se desfășoară apelurile și întâlnirile multilingve. Modelul detectează automat peste 70 de limbi și generează vorbire tradusă cu intonație, ritm și tonalitate apropiate de cele ale vorbitorului. Google susține că, spre deosebire de sistemele „pe rând” (care așteaptă ca interlocutorul să termine), Gemini 3.5 Live Translate produce traducerea continuu, echilibrând nevoia de context (pentru calitate) cu sincronizarea conversației. Unde ajunge modelul și cine îl poate folosi Google spune că lansarea începe „de azi” și se face pe trei canale: Dezvoltatori : „public preview” prin Gemini Live API și prin Google AI Studio . Companii : „private preview” în Google Meet pentru anumiți clienți Google Workspace, începând din această lună, cu extindere mai largă „mai târziu în acest an”. Utilizatori : disponibilizare globală în aplicația Google Translate pe Android și iOS . Ce se schimbă în Google Meet: mai multe limbi și combinații Pentru Google Meet, compania indică trei îmbunătățiri operaționale: suport pentru 70+ limbi , față de limita anterioară de cinci ; conversații în peste 2.000 de combinații de limbi într-o întâlnire, față de situația anterioară în care traducerea era „doar către și dinspre engleză”; interfață actualizată pentru acces instant la traducerea vocală. Dezvoltatori și parteneri: integrare în aplicații de voce Google afirmă că modelul procesează vorbirea „pe măsură ce este transmisă” (streaming), suportă intrări multilingve fără configurări manuale și are robustețe la zgomot, pentru medii imprevizibile. Compania indică utilizări precum interpretariat live pentru apeluri, întâlniri, lecții sau transmisiuni. Pentru implementare, Google trimite la un demo și cod exemplu pe GitHub: demo și example code . Sunt menționate și integrări în platforme pentru infrastructură media în timp real, precum Agora și Fishjam , astfel încât dezvoltatorii să se concentreze pe experiența utilizatorului. Testare în Grab și semnalul de cerere din piață Un exemplu de utilizare comercială este Grab, care testează modelul pentru comunicare multilingvă aproape în timp real între șoferi și pasageri la preluare. Google precizează că utilizatorii Grab fac peste 10 milioane de apeluri vocale pe lună prin platformă, ceea ce sugerează un volum relevant pentru scenarii în care latența și fluența traducerii contează. Măsură de siguranță: marcaj SynthID în audio Google mai spune că tot audio-ul generat de modelele sale este „marcat” cu SynthID — un filigran imperceptibil inserat direct în ieșirea audio, pentru ca materialele generate de AI să rămână detectabile și să ajute la prevenirea dezinformării. [...]