UI sprzedaje technologię
Prawda jest taka, że tak naprawdę to dobry, przyjazny interfejs użytkownika sprzedaje nowe technologie.
Jako przykład podam tutaj OpenAI i ich ChatGPT. GPT jest z nami od dłuższego czasu, przynajmniej kilku lat. Ale tak naprawdę to kiedy stał się tak popularny? W momencie kiedy OpenAI przygotowało prosty dla użytkowników interfejs czatu, czyli coś, co wygląda dokładnie w ten sam sposób jak wszystkie inne aplikacje webowe, w szczególności inne komunikatory.
Sam temat tego tekstu przyszedł mi do głowy spontanicznie, w momencie kiedy zacząłem próbować tworzyć transkrypcję swoich nagrań. Pomyślałem, że w sumie fajnie będzie trochę urozmaicić mój content, dodać go więcej w różnych mediach, chociażby jako wpis na blogu, albo skróty w social mediach. No ale wiadomo, że nie będę całości spisywał ręcznie, więc postanowiłem skorzystać z narzędzi wspomaganych sztuczną inteligencją, czy raczej uczeniem maszynowym.
Z powodu problemu z założeniem konta w OpenAI, postanowiłem sięgnąć po inne rozwiązanie, które według internetu jest też całkiem niezłe, czyli Google Speech-To-Text.
Po moich pierwszych testach, na stronie z przykładem, uznałem, że jest to wystarczające rozwiązanie i jest tym, czego potrzebuję – dostaję to co mówię spisane w formie tekstowej. Więc przechodzę do procesu korzystania z tego narzędzia i w tym miejscu właśnie przyszedł mi do głowy dzisiejszy temat.
Ogólnie moja opinia o produktach Google jest taka, że oni powinni w końcu zatrudnić osoby od User Experience, ale zostawmy to na boku, bo Google pozytywnego User Experience nie tworzy w ogóle.
Zacząłem próbować przejść proces tworzenia transkrypcji na zasadzie: wrzucam plik do ich narzędzia (oczywiście zgadzając się na to, że w razie czego będę za to wszystko płacił, bo jest to usługa jak najbardziej płatna) i chcę dostać na wyjściu gotowy tekst, nie sformatowany itd. Po prostu przepisane to co mówię. I tu muszę powiedzieć, że przejście tej prostej ścieżki jest mega trudne. Google nie przygotował żadnego prostego narzędzia które pozwoli mi właśnie wrzucić plik i dostać na wyjściu tekst, nawet jeżeli pod spodem się dzieje masa rzeczy. Sama konfiguracja zajęła mi dobre kilkanaście minut, masę jakichś komunikatów o błędach, które nic nie mówiły, bo były tak generyczne, że nawet wpisanie ich w Google nie pomagało.
Opisy z dokumentacji też były albo nieaktualne, albo po prostu nie działały. Na szczęście ostatecznie udało mi się dojść do rozwiązania. Jestem w stanie za pomocą Google Speech-To-Text dostać tekst mojego nagrania.
Oczywiście wiem, że Google zrobiło coś co miało być jak najbardziej konfigurowalne i uniwersalne. Oni wprost przygotowali rozwiązanie dla programistów. Ale w tym momencie pomyślałem sobie, że całkiem niezłe narzędzie, które nie jest powiązane z firmą OpenAI (która w niektórych kręgach budzi negatywne emocje), tylko z inną firmą (która budzi inne negatywne emocje), jest out-of-the-box kompletnie nieużywalne dla przeciętnego użytkownika, ba, nawet dla bardziej zaawansowanego użytkownika. Zacząłem sobie to wszystko mielić w głowie i doszedłem do wniosku, że w tym momencie mamy masę bardzo ciekawych rozwiązań technicznych, technologicznych, super idee, super rozwiązania, które są naprawdę bardzo zaawansowane, ale to co je sprzedaje (albo właśnie nie sprzedaje), to jest bardzo przystępny interfejs użytkownika. Dlaczego tak myślę? Zobacz, ile powstało narzędzi bazujących na ChatGPT, czy ogólnie na modelu GPT. Jest to multum narzędzi, które jedyne co robią, to integrują się z jakimś API i udostępniają prosty interfejs. Przykładowo jest takie narzędzie które się nazywa Jasnopis. Jest to strona która pozwala upraszczać, uprzyjemniać w odbiorze tekst, który napisaliśmy. Oni wprost mówią, że korzystają po prostu z ChatGPT pod spodem, ale to co robią, to obudowują to w bardzo przystępny dla normalnego użytkownika interfejs, za który wystarczy miesięcznie płacić (sam proces płatności też jest maksymalnie standardowy), oczywiście odpowiednio więcej niż za sam czat, i korzystać tak naprawdę z czegoś co jest pod spodem wręcz darmowe, ale korzystać w dużo przyjemniejszy sposób. I teraz te wszystkie inne narzędzia, które np. generują obrazy, czy w jakiś inny sposób korzystają z czatu do modyfikowania czy generowania treści jedyne co robią, to integrują coś.
Mam wrażenie, że na ten moment, w sytuacji kiedy mamy hype na AI i inne narzędzia, które gdzieś powstały w dużych korporacjach, wygrywają ci, którzy potrafią to obudować w naprawdę przyjazny interfejs użytkownika. Bo mało jest osób i firm, które stworzą coś naprawdę nowego, ale dobry pomysł i fajne dostarczenie tej treści, to jest to co sprzedaje i to jest to, co tak naprawdę pozwala przynosić naprawdę duże zyski. Bo szczerze mówiąc, kiedy zacząłem korzystać z tego Google Speech-To-Text, to zacząłem się od razu poważnie zastanawiać, czy jest jakaś usługa, która po prostu to robi za mnie, za którą jestem w stanie zapłacić kilkadziesiąt złotych miesięcznie, gdzie w tym momencie w Google w ramach konta próbnego, dostałem 1200 zł do wydania przez 3 miesiące. Plus ta usługa Google kosztuje jakieś ułamek centa za minutę, więc tak naprawdę ona jest dla mnie praktycznie za darmo, ale mimo to, przez to, że domyślny interfejs jest kompletnie nieprzyjazny, ja wolałbym zapłacić kilkadziesiąt złotych miesięcznie za coś, co po prostu mi pozwoli wrzucić plik, przetworzyć za pomocą dokładnie tego samego narzędzia i wypluć gotowe rozwiązanie. To jest oczywiście coś, co prawdopodobnie jestem w stanie oskryptować sobie w paru linijkach. Ale ja tego nie chcę robić, tak jak nie chce tego robić wielu użytkowników.
Bycie jedynie integratorem, to jest coś, co w tym momencie jest bardzo dobrym modelem biznesowym. Branie tych narzędzi, które są bardzo potężne, nowoczesne, innowacyjne i obudowanie ich w coś, co jest przyjazne dla przeciętnego użytkownika. Dodanie tego interfejsu to jest ogromna ilość wartości dodanej, która potrafi sprzedać naprawdę wiele. W tym momencie bycie takim integratorem to jest prosty model biznesowy, ale dający masę korzyści, bo użytkownicy nie chcą się bawić w jakieś API, w jakieś klucze, w jakieś dziwne formularze. Oni chcą dostać skrojone pod nich rozwiązanie, nawet jeżeli te wszystkie kolejne rozwiązania pod spodem korzystają z tego samego narzędzia, to mają celować dokładnie w ten obszar i problem, którego użytkownik potrzebuje.
Zacząłem się oczywiście zastanawiać czy ten model może się wyczerpać i myślę, że w tym momencie, w dobie coraz bardziej skomplikowanych narzędzi, coraz większej ilości usług, coraz dziwniejsze integracji pomiędzy usługami i coraz większego nastawienia na na to, żeby te rozwiązania były elastyczne i uniwersalne, ale też skalowalne, bycie kimś kto potrafi to opakować w przystępny UI, może nam przynieść profity przez długi czas. Więc jeżeli szukasz jakiegoś pomysłu na projekt, to uważam że
na ten moment jest to jedna z fajniejszych dróg, tylko wymagająca pewnej zdolności do upraszczania rzeczy, do szukania prostszej ścieżki, ale też szukania pomysłu na to, co użytkownikowi może się przydać. Tak jak w przypadku mega prostego narzędzia, które jest obudowaniem Speech-to-Text, gdzie potrzebuję dosłownie jedno pole „Dodaj plik wideo” i na wyjściu dostać gotowy plik tekstowy.
Myślę, że bycie takim programistą integratorem, który łączy różne usługi, to wcale nie jest w tym momencie wstyd, sądzę, że jest to całkiem potężny kawałek rynku, na którym można zarobić dobre pieniądze małym wysiłkiem.
Tekst jest transkrypcją wideo z serwisu Youtube: https://youtu.be/4OSa2PgvxVM
Leave a Comment