Microsoft prezentuje MAI Transcribe 1. Nowy model do transkrypcji ma wyprzedzać konkurencję
Microsoft ogłosił MAI Transcribe 1, nowy model do automatycznej transkrypcji, który według firmy ma zapewniać najwyższą dokładność w 25 kluczowych językach. To ważna informacja także dla polskich użytkowników, bo rynek narzędzi speech to text rośnie szybciej niż kiedykolwiek, a konkurencja między gigantami wpływa bezpośrednio na jakość usług dostępnych w aplikacjach, platformach spotkań i systemach obsługi klienta. Nowy model Microsoftu ma być szybszy, tańszy i bardziej niezależny od zewnętrznych rozwiązań, ale pierwsze szczegóły pokazują, że nie wszystko jest tak jednoznaczne, jak sugerują materiały promocyjne.
Co ogłosił Microsoft w sprawie MAI Transcribe 1?
Microsoft twierdzi, że MAI Transcribe 1 osiąga najniższy poziom błędów w benchmarku FLEURS dla 25 języków, co ma stawiać go przed modelami Whisper large v3, Gemini Flash Lite i GPT Transcribe. Firma podkreśla, że w 11 najczęściej używanych językach w jej ekosystemie model zajmuje pierwsze miejsce, co sugeruje optymalizację pod realne potrzeby klientów korporacyjnych. W testach wsadowych nowy model ma działać około dwa i pół raza szybciej niż dotychczasowe rozwiązania Microsoftu dostępne w Azure Fast. Cena startowa została ustalona na 0,36 dolara za godzinę nagrania, co może być atrakcyjne dla firm przetwarzających duże archiwa audio, zwłaszcza w porównaniu z kosztami modeli konkurencyjnych.
Jak MAI Transcribe 1 wypada na tle konkurencji?
Microsoft porównuje model wyłącznie w obrębie 25 języków, podczas gdy pełny benchmark FLEURS obejmuje ponad 100 języków, co daje firmie korzystny punkt odniesienia. W zestawieniach brakuje wyników dla języków mniej popularnych, gdzie Whisper i Gemini często radzą sobie stabilniej, co może mieć znaczenie dla globalnych wdrożeń. W segmencie komercyjnym Microsoft celuje w zastosowania, gdzie liczy się szybkość i koszt, co jest odpowiedzią na rosnącą presję ze strony OpenAI i Google. Włączenie MAI Transcribe 1 do rodziny modeli MAI obok Voice 1 i Image 2 sugeruje, że Microsoft buduje własny, zamknięty ekosystem, aby uniezależnić się od zewnętrznych dostawców.
Ograniczenia i brakujące funkcje w wersji public preview
W dokumentacji modelu zaznaczono, że część funkcji nie jest jeszcze dostępna, mimo że materiały marketingowe pokazują scenariusze wymagające niskiej latencji. Brakuje pełnej obsługi wszystkich trybów transkrypcji, co może ograniczać zastosowania w czasie rzeczywistym, szczególnie w call center i asystentach głosowych. Microsoft zapowiada stopniowe rozszerzanie możliwości modelu, co wskazuje na strategię szybkiego wejścia na rynek z późniejszym uzupełnianiem funkcji. W porównaniu z Whisperem, który jest w pełni otwarty i dostępny lokalnie, MAI Transcribe 1 wymaga środowiska Foundry, co może być barierą dla mniejszych firm.
Gdzie MAI Transcribe 1 sprawdzi się najlepiej?
Model jest projektowany pod szybkie przetwarzanie dużych zbiorów audio, takich jak archiwa, nagrania spotkań i materiały wideo. Obsługa formatów WAV, MP3 i FLAC pozwala na łatwe wdrożenie w istniejących pipeline’ach firmowych. Microsoft wskazuje na zastosowania w dostępności cyfrowej, analizie rozmów i generowaniu napisów, czyli obszarach, gdzie liczy się powtarzalność i koszt jednostkowy. Na razie model nie jest dostępny globalnie, ale jego obecność w Foundry sugeruje, że integracja z usługami Azure będzie stopniowo rozszerzana.
Co to oznacza w praktyce?
Microsoft nie tyle udowadnia absolutną dominację technologii, ile pokazuje, że potrafi zoptymalizować model pod konkretne, komercyjnie opłacalne języki i scenariusze. Strategia firmy wskazuje na próbę budowy pełnego łańcucha narzędzi AI, aby ograniczyć zależność od OpenAI i innych dostawców, co może przyspieszyć rozwój usług w Windows i Microsoft 365. Dla polskich użytkowników oznacza to, że w najbliższych miesiącach możemy zobaczyć bardziej precyzyjne transkrypcje w Teams, Copilocie i usługach Azure, choć pełna funkcjonalność pojawi się stopniowo. Konkurencja w segmencie speech to text będzie się zaostrzać, co zwykle przekłada się na niższe ceny i szybsze wdrażanie nowych funkcji w produktach konsumenckich.
Czytaj też: Windows 11 odzyska ważną funkcję. Microsoft w końcu słucha użytkowników
Grafika tytułowa: Simon Ray / Unsplash

