Recenzja oprogramowania do transkrypcji Sonix.ai

Każde narzędzie, które transkrybuje, jest przeznaczone dla określonej niszy, a Sonix wybrał te, które rejestrują spotkania lub prezentacje, a następnie potrzebują wersji maszynowej do wyszukiwania lub rozpowszechniania.

Dlatego może być równie przydatny dla ucznia, jak dla dyrektora, dostarczając transkrypcje, które można łatwo zindeksować do wykorzystania w przyszłości.

Jednak aby odnieść sukces w tych zadaniach, oprogramowanie musi być dokładne i niedrogie.
Czy Sonix.ai to narzędzie i czy usługa online może konkurować z zainstalowaną aplikacją?

Chcesz wypróbować Sonix.ai? Sprawdź witrynę tutaj

Plany i ceny

Podobnie jak w przypadku wielu usług transkrypcji, model kosztowy Sonix opiera się na czasie. W szczególności długość każdego nagrania, które przesyłasz do usługi w celu przetworzenia, a koszt tego zasobu wynosi 10 USD za godzinę, jeśli korzystasz z usługi standardowej płatności zgodnie z rzeczywistym użyciem.

Koszt godziny można obniżyć do 5 USD, jeśli zarejestrujesz się w usłudze subskrypcji Premium za 22 USD miesięcznie dla każdego użytkownika. Zniżki ilościowe są dostępne dla firm, które wymagają transkrypcji ponad 100 godzin miesięcznie.

Plan Standard ma najbardziej podstawowe funkcje, a Premium dodaje dodatkowe, takie jak dostęp dla wielu użytkowników i współdzielenie zespołu. Ponadto Enterprise ma wszystko, co oferuje Premium, z wieloma dodatkowymi funkcjami administracyjnymi i ulepszonym modelem wsparcia.

W miarę rozwoju usług transkrypcji Sonix jest jedną z droższych iz pewnością nie jest czymś, na co większość studentów lub użytkowników domowych mogłaby sobie pozwolić.

Projekt

Witryna my.sonix.ai ma wyjątkowo przejrzysty wygląd, a założenie konta jest bezpłatne.

W chwili pisania tego tekstu jest to wyłącznie usługa internetowa, a Sonix nie ma aplikacji mobilnej do przechwytywania i wysyłania do przetwarzania nagrań dźwiękowych.

Ponieważ jednak omówimy późno, istnieją proste sposoby obejścia tego problemu, które w pewnym stopniu rozwiązują problem braku aplikacji mobilnej.

Punktem wyjścia dla każdego zadania transkrypcji jest pulpit nawigacyjny Sonix.ai, w którym można zobaczyć dźwięk, który został już przepisany, i dodać nowe do przetworzenia.

Ponieważ ten system został zaprojektowany dla wielu użytkowników, zawiera system folderów wirtualnych do organizowania transkrypcji w dowolny sposób, jaki uzna za odpowiedni.

Kliknięcie „prześlij” przenosi użytkownika do strony, na której można upuścić wiele plików do systemu, a jeśli konto ma wystarczający kredyt, można je następnie przetworzyć.

Obsługiwane są wszystkie standardowe formaty plików audio, w tym wav, mp3, mp4a, aiff, acc, ogg i wma, a także możesz przesłać niektóre struktury pakowania wideo. Maksymalny rozmiar pliku to 4 GB, więc przed przesłaniem dużego pliku wideo w rozdzielczości 4K zalecamy skorzystanie z innego narzędzia do rozdzielenia dźwięku, aby przyspieszyć przesyłanie.

Dobrym sposobem na przyspieszenie przesyłania jest skorzystanie z usługi przechowywania w chmurze, takiej jak Dysk Google, One Drive, Box lub Dropbox i połączenie go bezpośrednio z kontem. Możesz także wysłać e-mail do systemu za pomocą Gmaila, co jest sposobem na stworzenie bardziej eleganckiego przepływu pracy niż upuszczanie plików na stronie internetowej.

Ta automatyzacja jest zapewniana przez Zapier, co pozwala na znacznie szerszą integrację, jeśli firma korzystająca z niej zainwestowała w tę technologię, aby połączyć swoje procesy biznesowe.

Kolejnym miłym akcentem jest to, że wraz z plikiem audio lub wideo można dołączyć istniejącą transkrypcję, aby przyspieszyć proces i poprawić dokładność.

Ze względu na naturę przetwarzania w chmurze ocena, jak szybkie lub wolne może być przetwarzanie, jest niemożliwe, ale z naszego doświadczenia wynika, że Sonix.ai jest stosunkowo szybki. Zwykle transkrypcja zajmuje od 10% do 20% czasu w miarę trwania nagrania. Dlatego ukończenie 10-minutowego nagrania zajmuje zwykle mniej niż 2 minuty.

Nie musisz śledzić przetwarzania, ponieważ system wyśle Ci powiadomienie e-mailem po zakończeniu pracy, wraz z linkiem do nowej transkrypcji.

Po przetworzeniu pliku możesz go otworzyć i edytować na stronie, aby przejrzeć wyniki, a także wyeksportować tekst w szerokiej gamie przydatnych formatów, w tym zdefiniowanych jako napisy przez niektóre aplikacje.

Liczba języków i dialektów obsługiwanych przez system wynosi 36 i obejmuje wiele krajów anglojęzycznych, francuskich, kantońskich, mandaryńskich, portugalskich i hiszpańskich, a także wszystkie popularne języki zachodnioeuropejskie i wschodnioeuropejskie, a także niektóre języki azjatyckie i arabskie.

Nagrania

Oprócz pracy włożonej w sztuczną inteligencję potrzebnej do zinterpretowania dźwięków, które wydają ludzie, prawdopodobnie strona Nagrania stanowi tutaj znaczący wysiłek związany z kodowaniem.

Tutaj zarówno dźwięk, jak i powiązana z nim transkrypcja mogą zostać porównane i ręcznie wzbogacone o szczegóły zmian mówcy i poprawki błędnych interpretacji.

Dla każdego, kto pracuje nad transkrypcją w celu dopracowania tekstu, ta strona podaje lokalizację węgla. To ma sens, że w tę część włożono trochę wysiłku, ponieważ jest ona bardzo łatwa w użyciu i naśladowaniu.

Próbując wskazać użytkownikowi miejsca, w których mogą wystąpić problemy, Sonix.ai oznaczy zawartość kolorem, aby podkreślić te sekcje, które są mniej pewne. Ta funkcja może być przydatna, chociaż Sonix.ai może popełniać błędy nawet w tych częściach, w których uważa, że transkrypcja ma status „Bardzo pewna”.

Najlepsze aspekty tej strony to sposób synchronizacji odtwarzania dźwięku i tekstu, dzięki czemu umieszczenie kursora w tekście przesuwa pozycję odtwarzania do tej samej sekcji.

Oprócz zwykłej edycji możliwe jest również wyróżnianie sekcji w różnych stylach i robienie notatek towarzyszących transkrypcji.

Możesz także dostosować kod czasowy, co jest szczególnie przydatne, jeśli nagrywanie rozpoczyna się od długiej przerwy lub niechcianej preambuły.

Precyzja

Sonix opisuje Sonix.ai jako „najlepsze oprogramowanie do automatycznej transkrypcji oparte na najnowocześniejszej sztucznej inteligencji”.

Biorąc pod uwagę nasze testy, opisalibyśmy ten produkt jako wysoce zależny od jakości nagrania i wielu innych czynników, których nie można łatwo kontrolować.

Przetwarzając nasze klasyczne historyczne nagrania mowy, z niektórymi mówcami było naprawdę trudno, nawet jeśli brzmiały dla nas wyraźnie.

Wyniki te wyraźnie kontrastowały z niektórymi bardziej równoległymi nagraniami, gdzie dokładność była akceptowalna, ale mało gwiezdna.

Doszliśmy do wniosku, że podejście przyjęte przez Sonix zakłada kilka założeń, które mogą działać lub nie, w zależności od głośnika i jakości nagrania.

Fascynujące było to, że usługa będzie kodować kolorami swoją transkrypcję w oparciu o stopień pewności co do tego, co zostało powiedziane, a samo analiza jest bardzo odkrywcza.

W pewnych okolicznościach poprawnie zidentyfikuje, że sekcja może być podejrzana, ale w innych jest pewna, że sekcja została przepisana całkowicie nieprawidłowo.

Wydaje się, że kilka typowych problemów rzuca wyzwanie, a jednym z nich są ludzie, którzy nie mówią doskonałej gramatycznie prozy. Starając się, aby ich mowa była bardziej bezpośrednia, usunęli niektóre słowa ze zdań, tworząc bardziej dramatyczny styl. Kiedy Sonix je przepisuje, wydaje się, że jest zdeterminowany, aby dodać te słowa z powrotem, aby pasowały do jego wewnętrznego modelu gramatycznego, zamiast tego, co zostało faktycznie wypowiedziane.

Transkrypcja lepiej czyta się jako dokument, ale nie jest tak naprawdę reprezentatywna dla tego, co zostało powiedziane.

Sonix jest z pewnością lepszy, gdy jakość nagrania i wyrazistość głośnika są wysokie, co udowodniliśmy na małym klipie, na którym Stephen Fry czyta Harry'ego Pottera. Ale nie zawsze można mieć taką kontrolę nad jakością dźwięku, a w tym teście nadal popełniało błędy.

Innym obszarem problemowym są nazwy formalne i techniczne słowa lub skróty. Można je rozwiązać, dodając je do słownika niestandardowego, ale wymaga to pracy, aby system był w stanie lepiej działać, gdy używane są nazwy lub akronimy.

Dla tych, którzy potrzebują doskonałego słowa transkrypcji, Sonix ma wybór profesjonalnych transkrybentów, którzy mogą przepracować nagranie i rozwiązać te problemy, ale w pewnym stopniu podważa to cel przetworzonej transkrypcji.

Bezpieczeństwo

Bezpieczeństwo Sonix.ai koncentruje się na serwerach, na których przetwarzany jest dźwięk i przechowywane są transkrypcje.

Cały ruch jest szyfrowany przy użyciu TLS (Transport Layer Security), a gdy pliki znajdą się na serwerze, który jest chroniony przez wiele warstw zapory, ochrona przed włamaniami, a wszystkie dane są otoczone szyfrowaniem AES-256 po stronie serwera. Firma obiecuje, że pracownicy nie będą mieli dostępu do nagrań ani transkrypcji, chyba że otrzymają na to wyraźne pozwolenie.

Krytyczny problem z tym podejściem polega na tym, że prosty login i hasło mogą obejść to wszystko. Sonix.ai nie ma uwierzytelniania dwuskładnikowego i nie ma łatwo dostępnego rejestru, kto uzyskuje dostęp do plików i kiedy.

Z punktu widzenia bezpieczeństwa można to uznać za nadmierne poleganie na integralności osób korzystających z systemu, aby nie udostępniać nagrań innym osobom spoza firmy lub nie przechowywać potencjalnie wrażliwych plików, gdy opuszczają firmę.

Krótko mówiąc, bezpieczeństwo musi być lepsze, a śledzenie lub aktywność użytkowników musi mieć wyższy priorytet.

Ostateczny werdykt

Biorąc pod uwagę stosunkowo wysokie koszty, spodziewaliśmy się, że Sonix będzie działał lepiej niż miał.

Być może mieliśmy pecha z wyborem rzeczy do transkodowania, ale nadal wydawało się, że popełnia nadmierną ilość błędów.

Zaletą tego równania jest to, że jest szybki i niezwykle łatwy w użyciu, chociaż zalecamy wykonanie kilku przykładowych nagrań za pomocą tego rozwiązania przed wykupieniem subskrypcji.

Największym problemem związanym z Sonix jest wysoki koszt, a nawet jeśli jest to odpowiednie narzędzie do Twoich konkretnych wymagań, istnieją tańsze sposoby przekształcania dźwięku w tekst w innym miejscu.