Recenzja Microsoft Azure: najnowocześniejsze przetwarzanie głosu

Microsoft Azure Speech to Text to jedna z najbardziej zaawansowanych platform rozpoznawania głosu. Będąc częścią oferty Cognitive Speech Services firmy Microsoft, wykorzystuje algorytmy głębokiego uczenia w celu przezwyciężenia słabej jakości dźwięku i może dostosować się do różnych stylów mówienia w celu uzyskania dokładnych transkrypcji dźwięku. W tej recenzji zamiany na tekst Microsoft Azure przyjrzymy się bliżej tej usłudze.

Warto zauważyć, że Microsoft Azure Speech to Text nie jest tradycyjnym, przyjaznym dla użytkownika oprogramowaniem do dyktowania. Zamiast tego jest to platforma zorientowana na programistów, która ma pomóc firmom w tworzeniu i testowaniu własnych produktów oraz zarządzaniu nimi. Jeśli chcesz tylko transkrybować partię plików audio, lepszym rozwiązaniem mogą być alternatywne aplikacje do zamiany mowy na tekst. Zapoznaj się z naszym najlepszym przewodnikiem po oprogramowaniu do zamiany mowy na tekst, aby uzyskać najlepsze alternatywy.

Microsoft Azure Speech to Text: plany i ceny

Korzystając z usługi Microsoft Azure Speech to Text, możesz bezpłatnie transkrybować do pięciu godzin dźwięku i tworzyć jeden niestandardowy model głosowy miesięcznie. Jednak w przypadku bezpłatnego abonamentu w danym momencie dostępne jest tylko jedno jednoczesne żądanie dźwięku, co oznacza, że ​​ta opcja nie jest opłacalna dla większości firm.

Płatności za usługę mowy platformy Azure są dzielone na jednosekundowe przyrosty.

Jeśli chcesz transkrybować więcej niż jeden klip mowy naraz, musisz przejść na standardowy system cenowy platformy Azure. Kosztuje to 1 USD za godzinę dźwięku i obsługuje do 20 jednoczesnych żądań. Dodatkowe opłaty są naliczane, jeśli musisz użyć niestandardowego modelu audio lub transkrybować wielokanałowe pliki dźwiękowe. Te dodatkowe usługi kosztują odpowiednio 1,40 USD i 2,10 USD za godzinę dźwięku.

Chociaż firma Microsoft podaje ceny w formacie „za godzinę audio”, zgodnie ze standardem branżowym, fakturowanie jest w rzeczywistości dzielone na jednosekundowe przyrosty, więc nie zapłacisz za dłuższy czas przetwarzania, niż jest to wymagane.

Zamiana mowy na tekst na platformie Microsoft Azure: funkcje

Główną funkcją Azure Speech to Text jest dostęp, jaki zapewnia ona potężnemu systemowi przetwarzania języka naturalnego firmy Microsoft. W ciągu ostatnich kilku lat sztuczna inteligencja mowy firmy Microsoft osiągnęła kilka ważnych kamieni milowych. Oznacza to, że może teraz wykonywać zadania, które wcześniej były niemożliwe dla usługi rozpoznawania mowy, takie jak dokładna transkrypcja cross-talk podczas rozmów w małych grupach.

Usługa Microsoft Azure Speech to Text można zintegrować z usługą Office 365 w celu uzyskania optymalnej dokładności.

Platforma Azure obsługuje dziesiątki języków i dialektów i można ją szkolić - przy użyciu niestandardowych modeli rozpoznawania mowy - w celu lepszego dostosowania się do stylu mówienia użytkownika, hałasu otoczenia i słownictwa. Jeśli Twoja organizacja jest już zaangażowana w ekosystem produktów Microsoft, możesz wykorzystać dane użytkownika Office 365, aby lepiej poprawić dokładność rozpoznawania mowy w warunkach specyficznych dla organizacji. Co ważne, można to zrobić bez narażania bezpieczeństwa danych, ponieważ zamiana mowy na tekst może działać lokalnie.

Microsoft Azure Speech to Text: Setup

Platforma Microsoft Azure została zaprojektowana dla deweloperów, a nie dla konsumentów. Oznacza to, że jego ustawienie jest skomplikowaną i nieco trudną procedurą, którą najlepiej pozostawić osobie posiadającej dużą wiedzę techniczną.

Skonfigurowanie platformy Azure nie jest łatwe, chyba że masz doświadczenie w programowaniu.

Najszybszym sposobem skonfigurowania platformy Azure jest użycie zestawu Azure Speech SDK w języku programowania, takim jak Java lub C ++. W tym celu musisz zarejestrować bezpłatne konto platformy Azure i utworzyć pusty projekt w swoim środowisku programistycznym. Będziesz wtedy musiał użyć Microsoft Visual Studio i napisać krótki program do zainicjowania obiektu SpeechRecognizer firmy Microsoft.

Zamiana mowy na tekst na platformie Microsoft Azure: interfejs

Podobnie jak inne platformy transkrypcji zbiorczej, Microsoft Azure Speech to Text ma być uruchamiany jako interfejs programowania aplikacji (API), dodawany do programów Office 365 lub integrowany z nowymi platformami i usługami. Z tego powodu nie ma jednego interfejsu Azure Speech to Text. To, co zobaczy użytkownik końcowy, zależy od tego, jak zintegrowano usługę Azure Speech to Text.

Portal online platformy Azure jest intuicyjny i łatwy w użyciu.

W międzyczasie programista zarządzający platformą Azure zrobi to za pośrednictwem internetowego Azure Portal firmy Microsoft, który jest nowoczesny i łatwy w nawigacji. Zlokalizowanie strony zasobów usług mowy zajmuje tylko kilka minut, a po dodaniu instancji do konta monitorowanie alertów i użycia można przeglądać w jednym oknie.

Microsoft Azure Speech to Text: Wydajność

W ramach naszej recenzji zamiany mowy na tekst Microsoft Azure chcieliśmy zobaczyć, jak ta platforma poradziła sobie z wyzwaniem przetwarzania nieprzetworzonych nagrań głosowych, więc gdy nasze konto Azure było gotowe do działania, przesłaliśmy serię klipów z różnymi poziomami szumu w tle . Ogólnie platforma Azure wykonała dobrą robotę, przetwarzając nasze próbki, ponieważ w trakcie naszej oceny zauważyliśmy nie więcej niż kilka błędów.

Włączenie niestandardowego modelu mowy platformy Azure poprawiło naszą dokładność transkrypcji.

Platforma Azure miała początkowo pewne problemy z przetwarzaniem nietypowych lub specjalnych zwrotów, takich jak nazwy drużyn sportowych i terminy naukowe, ale szybko rozwiązano to, włączając opcję niestandardowego modelu wyjściowego. Po aktywowaniu tej opcji Azure był w stanie dostosować się do unikalnego słownictwa i stylu mówienia, którego używaliśmy.

Microsoft Azure Speech to Text: Pomoc techniczna

Aby dowiedzieć się, jak korzystać z zestawu Azure Speech Services SDK za pomocą różnych języków programowania i zintegrować funkcje Azure Speech to Text z własną platformą, zdecydowanie potrzebujesz pomocy. Na szczęście firma Microsoft stworzyła obszerny katalog materiałów szkoleniowych dla platformy Azure, w którym znajdziesz przykłady kodu i przydatne wskazówki.

Sekcja szkoleniowa witryny Azure zawiera wiele przydatnych zasobów.

Ponadto wszyscy klienci platformy Azure otrzymują bezpłatną pomoc dotyczącą rozliczeń i zarządzania subskrypcjami, do której można uzyskać dostęp za pośrednictwem systemu biletów. Bardziej szczegółowe wsparcie można dodać do swojego konta za stałą opłatą, zaczynając od 29 USD miesięcznie.

Microsoft Azure Speech to Text: ostateczny werdykt

Platforma Azure Speech to Text wykorzystuje najnowocześniejszą technologię, aby zapewnić niemal idealną usługę transkrypcji. Jest najbardziej odpowiedni dla firm, które już zainwestowały w ekosystem Microsoft Office 365, ponieważ niestandardowe modele głosu i słownictwa można bezpiecznie wygenerować z istniejącego archiwum dokumentów. Niektóre małe firmy mogą mieć problemy z platformą Azure, ponieważ jej prawidłowe skonfigurowanie wymaga uwagi wykwalifikowanego programisty chmury firmy Microsoft.

Konkurencja

Amazon Transcribe, Google Cloud Speech-to-Text i Watson Speech to Text są bezpośrednimi konkurentami dla Microsoft Azure. Wszystkie te trzy platformy są również w stanie dokładnie wykonywać transkrypcje wsadowe w dużych ilościach. Google Cloud jest jedynym bliskim konkurentem, który może pracować z większą liczbą języków niż Azure, ale jest droższy, a początkowa stawka wynosi zaledwie 0,006 USD za 15 sekund w porównaniu z 0,017 USD za minutę platformy Azure (0,00425 USD za 15 sekund).

Aby znaleźć inne alternatywy dla Microsoft Azure Speech to Text, zapoznaj się z naszym najlepszym przewodnikiem po oprogramowaniu do zamiany mowy na tekst.

Interesujące artykuły...