Recenzja Watson Speech to Text: Najlepsza usługa transkrypcji o dużej objętości?

Spisie treści:

Anonim

Watson to system komputerowy IBM przetwarzający język naturalny. Obsługuje słynny superkomputer odpowiadający na pytania, a także szereg produktów korporacyjnych opartych na sztucznej inteligencji, w tym Watson Speech to Text. W naszej recenzji zamiany mowy na tekst Watson przyjrzymy się jednej z najlepszych dostępnych obecnie aplikacji do zamiany mowy na tekst, idealnej dla każdego, kto chce konwertować dźwięk na tekst na dużą skalę.

Platforma przetwarzania mowy Watson jest dostępna w chmurze IBM Cloud. To wszechstronne narzędzie, którego można używać w wielu kontekstach, w tym podczas dyktowania i transkrypcji połączeń konferencyjnych. Co więcej, w przeciwieństwie do większości innych aplikacji do zamiany mowy na tekst, jest dostępny jako interfejs API, umożliwiając programistom między innymi osadzanie go w systemach sterowania głosem.

Watson Speech to Text: Plany i ceny

Dzięki funkcji zamiany mowy na tekst Watson można przetwarzać bezpłatnie do 500 minut dźwięku miesięcznie. Jeśli chcesz przekonwertować więcej, musisz zapłacić za każdą minutę dźwięku, a stawka zmienia się w zależności od czasu przetwarzania dźwięku. Koszty wahają się od 0,01 USD do 0,02 USD za minutę, a dodatkowa opłata wynosi 0,03 USD za minutę, jeśli potrzebujesz niestandardowego modelu językowego IBM. Dostępne są również plany Watson z wyceną premium, które zapewniają dostęp do ulepszonych funkcji prywatności danych i gwarancji dostępności.

Usługa zamiany mowy na tekst firmy Watson jest wyceniana na podstawie ilości treści, które trzeba transkrybować.

Dostęp do systemu Watson Speech to Text można również uzyskać w ramach subskrypcji IBM Cloud ogólnego przeznaczenia. Przetwarzanie języka naturalnego to tylko jedna aplikacja z szerokiej gamy usług sztucznej inteligencji, które można uzyskać za pośrednictwem chmury IBM Cloud, więc jest to dobra opcja dla każdej organizacji, która potrzebuje dostępu do szybkich transferów danych, chatbotów lub narzędzi do zamiany tekstu na mowę.

Watson Speech to Text: funkcje

Dzięki elastycznej integracji API i innym gotowym narzędziom IBM usługa rozpoznawania mowy Watson znacznie wykracza poza podstawową transkrypcję. Jeśli chcesz go używać, na przykład w kontekście obsługi klienta, Asystent Watson można skonfigurować do bezpośredniego przetwarzania pytań w języku naturalnym lub odpowiadania na pytania przez telefon.

W firmie Watson IBM stworzył bogatą w funkcje platformę przetwarzania języka naturalnego.

Watson współpracuje z dźwiękiem na żywo w 11 językach i może importować dźwięki w różnych wstępnie nagranych formatach. Podczas przesyłania strumieniowego wsparcie diagnostyczne w czasie rzeczywistym oznacza, że ​​Watson może podpowiadać użytkownikom, aby zbliżyli się do mikrofonu lub zmienili środowisko. Imponujący jest również fakt, że Watson może rozróżniać różnych mówców we wspólnej rozmowie dzięki funkcji Speaker Diarization, funkcji, która wciąż przechodzi testy beta.

Watson Speech to Text: Konfiguracja

Aby korzystać z Watson, pierwszą rzeczą, którą musisz zrobić, jest utworzenie konta IBM Bluemix. Rejestracja jest bezpłatna i bezbolesna, wymaga jedynie podania adresu e-mail i hasła. Po zalogowaniu musisz dodać do swojego konta postanowienie dotyczące usługi zamiany tekstu na tekst. Na tym etapie otrzymasz kilka danych logowania, które należy zapisać we własnych rejestrach.

Rejestracja konta IBM Bluemix jest konieczna, aby uzyskać dostęp do pełnego zestawu funkcji Watson.

Gdy to zrobisz, sprawy stają się znacznie bardziej złożone. Aby uzyskać dostęp do Watson, musisz dodać te poświadczenia do partii kodu jednolitego lokalizatora zasobów klienta (cURL), a następnie uruchomić go na swoim komputerze. Aby dowiedzieć się, jakie polecenie należy wywołać, zapoznaj się z tym przydatnym przewodnikiem. Alternatywnie, jeśli chcesz po prostu zobaczyć, jak dobrze działa system Watson bez konieczności przechodzenia przez wszystkie te przeszkody, możesz zamiast tego wypróbować go w witrynie demonstracyjnej IBM.

Watson Speech to Text: Interfejs

W przeciwieństwie do aplikacji głosowych na tekst przeznaczonych dla klientów, usługi Watson są zaprojektowane tak, aby były dostępne za pośrednictwem interfejsów API i kodu osadzonego w innych systemach. Z tego powodu nie ma prawdziwego „interfejsu” Watsona. Zamiast tego, dostęp do Watsona można uzyskać za pośrednictwem trzech różnych protokołów internetowych. Są to WebSockets, REST API i Watson Developer Cloud.

Watson Speech to Text można zarządzać za pośrednictwem systemu Watson Developer Cloud.

Aby sterować Watsonem, musisz użyć narzędzia wiersza poleceń, które łączy się z chmurą IBM jedną z tych trzech tras. Interfejs, który widzi użytkownik końcowy wchodzący w interakcję z firmą Watson, będzie musiał zostać utworzony oddzielnie przez osobę z zespołu programistów.

Watson Speech to Text: Performance

Ogólnie byliśmy pod wrażeniem sposobu, w jaki ta platforma przetwarzania języka naturalnego radziła sobie z prawdziwą mową. Użyliśmy Watsona do transkrypcji klipów nagranych w wielu trudnych warunkach, a także fragmentów dźwiękowych słynnych przemówień wygłoszonych w kilku z 11 obsługiwanych przez firmę Watson języków.

Okazało się, że Watson radził sobie dobrze z wcześniej nagraną mową.

Chociaż błędy były coraz częstsze w przypadku klipów z dużą ilością szumów w tle, generalnie Watson zapewniał niezwykle dokładne wyniki. Na podstawie naszych testów oszacowaliśmy, że niezapowiedziane błędy zdarzały się średnio tylko raz na 150 słów. Jednak stało się jasne, dlaczego funkcja Speaker Diarization firmy Watson pozostaje w testach BETA, ponieważ kilka razy podczas naszej oceny jeden głos został nieprawidłowo oznaczony jako oddzielne głośniki.

Watson Speech to Text: Wsparcie

Centrum zasobów IBM oferuje mnóstwo dokumentacji, dzięki której można lepiej zrozumieć, jak zastosować Watson w konkretnym przypadku użycia. Warto również skorzystać z integracji API i pakietów SDK stworzonych przez społeczność programistów Watson i opublikowanych na GitHub.

Strona Watson API GitHub jest dobrym źródłem wsparcia dla usługi Watson Speech to Text.

Jeśli nie znajdziesz tam rozwiązania swojego problemu, możesz skontaktować się bezpośrednio z IBM, otwierając zgłoszenie do pomocy technicznej lub kontaktując się z nimi telefonicznie. Jeśli zdecydujesz się na jeden z pakietów premium Watson, korzystanie z usługi Watson będzie chronione umową dotyczącą poziomu dostępności usług.

Watson Speech to Text: Ostateczny werdykt

Jeśli Twoja organizacja dysponuje wiedzą i zasobami umożliwiającymi prawidłową integrację platformy IBM Watson Speech to Text z systemem, skorzystasz z zaawansowanych funkcji, takich jak diagnostyka środowiska dźwiękowego w czasie rzeczywistym i tymczasowe wyniki transkrypcji. Jednak małe firmy i organizacje będą zmagać się z technicznym wyzwaniem prawidłowego skonfigurowania Watsona.

Konkurencja

Usługa IBM Watson Speech to Text jest bezpośrednim konkurentem usług transkrypcji zbiorczej Google Cloud Speech-to-Text i Amazon Transcribe. Oba są znacznie tańsze niż Watson, na przykład z transkrypcją Google Cloud zaczynającą się od 0,006 USD za minutę. Wszystkie trzy usługi mają podobne funkcje, takie jak dostosowane słownictwo, ale jedna funkcja, której bardzo brakuje w IBM Watson, ale dostępna u obu konkurentów, to automatyczne rozpoznawanie interpunkcji.

Szukasz innego rozwiązania zamiany mowy na tekst? Zapoznaj się z naszym najlepszym przewodnikiem po oprogramowaniu do zamiany mowy na tekst.