Recenzja Pisania głosowego w Google

Spisie treści:

Anonim

Używanie głosu do sterowania naszymi domami i komputerami staje się coraz powszechniejsze. Jeszcze dziesięć lat temu proszenie Alexy lub Google Home o sterowanie oświetleniem lub zamówienie produktu przez Internet mogło wydawać się niezwykłe, ale teraz jest to normą.

Jedną z firm, które zainwestowały najwięcej w tego typu technologie, jest Google, umożliwiając swoim urządzeniom Google Home i systemom Android przyjmowanie poleceń słownych, a nawet rozpoznawanie osoby mówiącej.

Dzisiaj przyjrzymy się, w jaki sposób połączyli tę technologię z platformą Dokumentów Google i zastanowimy się, czy jest to realna alternatywa dla innych komercyjnych rozwiązań konwersji głosu na tekst.

cennik

Oprogramowanie jest zawarte w Dokumentach Google, a więc jest z natury bezpłatne. Wszystko, czego potrzebujesz, aby z niego korzystać, to konto Google i urządzenie mobilne lub komputer z mikrofonem. Jest to kolejne źródło danych do zbierania przez Google, ale obecnie stanowi to część ceny „bezpłatnego”.

Projekt

W Dokumentach Google do wprowadzania danych można używać głosu, funkcja ta nazywa się „Pisanie głosowe” i można ją znaleźć w menu Narzędzia w Dokumentach Google lub w Prezentacjach Google. Można go również aktywować w dowolnym miejscu za pomocą skrótu Ctrl-Shift-S.

Gdy aktywujesz go po raz pierwszy, pojawi się prośba o zatwierdzenie dostępu do mikrofonu w witrynie docs.google.com.

Gdy zaakceptujesz, że pojawi się małe okienko z logo mikrofonu, które możesz kliknąć, aby aktywować wprowadzanie głosowe. Jest on następnie zastępowany czerwonym symbolem mikrofonu obok dokumentu, aby wskazać, że system jest w trybie nasłuchiwania.

Zanim aktywujesz pisanie głosowe w panelu sterowania, możesz wybrać język z menu, a ponieważ to jest Google, istnieje wiele opcji do wyboru. Możesz także kliknąć znak zapytania i uzyskać pomoc dotyczącą korzystania z systemu.

W przypadku tych systemów jest to bardzo skondensowane rozwiązanie.

Google przetworzy to, co powiesz, najlepiej jak potrafi, a jeśli system nie ma dokładnej pewności co do słowa, podkreśli je na szaro. Te „podejrzane” słowa można następnie kliknąć, a system udostępnia pewne alternatywy.

Możesz jednak szybko poruszać się po dokumencie i ręcznie naprawiać problemy lub umieścić kursor i jeszcze raz pchnąć pisanie głosowe.

Jeśli chcesz porozmawiać z inną osobą podczas pracy, możesz poprosić Google, aby przestał słuchać, a następnie wznowił pracę.

Aby jednak w pełni wykorzystać możliwości tego rozwiązania, istnieje długa lista poleceń, które należy zapamiętać, a które mogą kopiować, wklejać, poruszać się po dokumencie, wstawiać tabele i mnóstwo innych funkcji.

Możesz też wstawiać znaki interpunkcyjne, formatować dokument, a nawet wstawiać hiperłącza.

Jednak maksymalne wykorzystanie możliwości zakłada, że ​​możesz zapamiętać polecenia lub mieć otwartą pomoc, aby odświeżyć swoją pamięć.

Listę można szybko wyświetlić, wygodnie mówiąc „Lista poleceń głosowych”.

Języki

Tam, gdzie wiele rozwiązań konwersji głosu na tekst obejmuje tylko niewielką liczbę języków, Google ma ich znaczną liczbę. Aktualna ostateczna lista to:

Afrikaans, amharski, arabski, arabski (Algieria), arabski (Bahrajn), arabski (Egipt), arabski (Izrael), arabski (Jordania), arabski (Kuwejt), arabski (Liban), arabski (Maroko), arabski (Oman) , Arabski (Palestyna), arabski (Katar), arabski (Arabia Saudyjska), arabski (Tunezja), arabski (Zjednoczone Emiraty Arabskie), armeński, azerbejdżański, bahasa indonezja, baskijski, bengalski (Bangladesz), bengalski (Indie), bułgarski, Kataloński, chiński (uproszczony), chiński (tradycyjny), chiński (Hongkong), chorwacki, czeski, duński, holenderski, angielski (Australia), angielski (Kanada), angielski (Ghana), angielski (Indie), angielski (Irlandia) , Angielski (Kenia), angielski (Nowa Zelandia), angielski (Nigeria), angielski (Filipiny), angielski (RPA), angielski (Tanzania), angielski (Wielka Brytania), angielski (USA), perski, filipiński, fiński, francuski , Galicyjski, gruziński, niemiecki, grecki, gudżaracki, hebrajski, hindi, węgierski, islandzki, włoski, włoski (Włochy), włoski (Szwajcaria), japoński, jawajski, kannada, khmerski, koreański, laotański, łotewski, litewski, malajalam, malezja n, marathi, nepalski, norweski, polski, portugalski (Brazylia), portugalski (Portugalia), rumuński, rosyjski, słowacki, słoweński, serbski, syngaleski, hiszpański, hiszpański (Argentyna), hiszpański (Boliwia), hiszpański (Chile), hiszpański (Kolumbia), hiszpański (Kostaryka), hiszpański (Ekwador), hiszpański (Salwador), hiszpański (Hiszpania), hiszpański (Stany Zjednoczone), hiszpański (Gwatemala), hiszpański (Honduras), hiszpański (Ameryka Łacińska), hiszpański (Meksyk ), Hiszpański (Nikaragua), hiszpański (Panama), hiszpański (Paragwaj), hiszpański (Peru), hiszpański (Portoryko), hiszpański (Urugwaj), hiszpański (Wenezuela), sundajski, suahili (Kenia), suahili (Tanzania), Szwedzki, tamilski (Indie), tamilski (Malezja), tamilski (Singapur), tamilski (Sri Lanka), tajski, turecki, ukraiński, urdu (Indie), urdu (Pakistan), wietnamski i zuluski.

To 119 języków, w tym 13 form arabskich, 19 odmian hiszpańskich, 13 dialektów angielskich, a nawet cztery smaki tamilskiego.

Istnieją języki, które rzadko są obsługiwane przez oprogramowanie do dyktowania, takie jak zulu i islandzki, ze względu na stosunkowo niewielką liczbę użytkowników.

Rozpoznawanie języków jest prawdopodobnie największą zaletą Pisania głosowego w Google.

Nagrania

Jeśli to rozwiązanie ma słabość, to znaczy, że nie może łatwo przetwarzać nagrań.

Co prawda nie jest to niemożliwe, ale wymaga łatania systemu audio komputera tak, aby pobierał wyjście przeznaczone dla głośników i kierował nim tak, jakby pochodziło z mikrofonu. Jednak zrobienie tego nie pozwala na rozróżnienie między różnymi osobami w nagraniach i może kolidować ze sztuczną inteligencją, której Google używa, aby poprawić dokładność werbalną, ucząc się, jak mówisz.

Jeśli chcesz transkrybować podcasty lub nagrane wywiady, zalecamy użycie czegoś innego, ponieważ to narzędzie nie zostało stworzone w tym celu.

Precyzja

Trudno jest ocenić dokładność systemu przetwarzania głosu, gdy nie można wysłać do niego tych samych nagrań, które zostały przekonwertowane przez inne produkty. Każdy, kto regularnie korzysta z Alexy lub Google Home, będzie wiedział, że czasami nas nie zrozumie, głównie z powodu obcych dźwięków lub niekonsekwentnego mówienia.

To powiedziawszy, w aktywnych testach, które przeprowadziliśmy, narzędzie to generalnie poprawiało większość słów lub poprawne słowo było szybko dostępne w menu podejrzanych słów.

Aby uzyskać najlepsze wyniki, potrzebna jest pewna kontrola nad szybkością, głośnością i tonem mówienia, co niewątpliwie wiąże się z praktyką. Ponadto możliwość zapamiętania wszystkich specjalnych poleceń może zmniejszyć liczbę wymaganych edycji po nagraniu, co jest szczególnie ważne.

W zależności od twoich oczekiwań dokładność tutaj jest akceptowalna. Istnieje spójność jego interpretacji, którą zachował podczas naszych testów. Nie możemy przewidzieć, jak dobrze to działa. Ale ponieważ jest darmowy, nie będzie kosztować nic poza Twoim czasem, aby to ustalić.

Bezpieczeństwo

Ponieważ to jest Google, model bezpieczeństwa jest taki sam, jak kontroluje dostęp do wszystkich kont Google. Obejmuje to zarówno prostą ochronę hasłem, jak i bardziej rozsądną metodologię uwierzytelniania dwuskładnikowego (TFA).

Biorąc pod uwagę liczbę złodziei tożsamości, osoby korzystające z Google bez TFA są narażone na poważne ryzyko włamania na ich konta.

Nawet ta opcja bezpieczeństwa ma swoje ograniczenia, ale jest lepsza niż zwykłe hasło.

Osobom, które nie mają wystarczającej paranoi, zdecydowanie zalecamy przejście na https://myactivity.google.com/myactivity

Zobaczysz, jakie dane Google zbiera o Tobie codziennie, np. Nagrania Twoich poleceń głosowych.

Ostateczny werdykt

Może to być dłuższa recenzja, jeśli to oprogramowanie oferuje więcej funkcji, ale tak nie jest.

W miarę rozwoju rozwiązań głosowych na tekst to nie jest skomplikowane, ale ma wystarczającą funkcjonalność, aby być naprawdę przydatne.

Inne rozwiązania są zbudowane w celu obsługi transkrypcji rozmów między wieloma osobami, przy czym zostało to zaprojektowane z myślą o obsłudze jednej osoby, która mówi w sposób kontrolowany i precyzyjny.

Jego użycie zakłada, że ​​z przyjemnością korzystasz z Google i Dokumentów Google, nawet jeśli nie jest to ostateczne miejsce docelowe wprowadzanego tekstu.

Kopiowanie dyktanda wklejania z Dokumentów Google do innej aplikacji nie jest żadnym obowiązkiem, a w razie potrzeby będziesz mieć kopię w chmurze, do której będziesz się odwoływać.

Niektórzy użytkownicy, co zrozumiałe, mają problemy z zaspokojeniem nienasyconego apetytu Google na dane użytkowników, a ten mechanizm jest kolejnym źródłem danych, które mogą oni przekuć.

Jeśli masz na to ochotę, nie będziesz używać Pisania głosowego Google ani czegokolwiek od Google.

Dla tych, którzy chcą zaakceptować, ile Google może o nich wiedzieć, rozwiązanie do dyktowania głosu w Dokumentach Google jest wystarczające do ogólnego użytku, zwłaszcza jeśli potrzebujesz tej funkcji tylko od czasu do czasu.