Bár a beszédfelismerő alkalmazást „alrájt”-nak ejtjük, a név első két betűje, az AI a mesterséges intelligenciát jelenti?
Igen, az AI kulcsszót már a névben meg akartuk mutatni, hogy érzékeltessük, az alkalmazás olyan innovatív megoldás, ami a mesterséges intelligencián alapszik. Régebbi technológián alapuló beszédfelismerő megoldások ugyanis már az elmúlt évtizedben is megjelentek, de meglehetősen kezdetlegesek és pontatlanok voltak.
A mesterséges intelligenciáról mint a jövő meghatározó technológiájáról egyre többet hallunk. A felhasználók hogyan viszonyulnak egy MI-alapú szolgáltatáshoz?
A visszajelzéseik alapján rengeteget segít nekik a megoldás, egyre közelebb érzik magukhoz a különböző MI-alapú szolgáltatásokat, sőt egyre több kerül be közülük a hétköznapi eszköztárukba is. Az Alrite alkalmazás inkább azzal okoz meglepetést a körükben, hogy mennyivel jobb minőségű és funkciógazdagabb, mint a korábban megismert, más technológián alapuló eszközök.
A Régens mikor kezdett el a mesterséges intelligencia területével foglalkozni?
A cég harminc éve lépett a piacra, logisztikai, váminformatikai, pénzügyi szoftverek mellett egyedi, üzleti és közigazgatási eljárásokra illeszkedő alkalmazások fejlesztésével is foglalkozunk. Az MI a kutatás-fejlesztési területünk egyik kiemelt szektora, öt éve foglalkozunk aktívan vele, amit a képfelismeréssel kezdtünk, majd a szövegelemzés és beszédfelismerés is a fókuszterületeink közé került. Részt veszünk EU-s konzorciumokban is különböző k+f-projektekben, de a magyar, illetve a házon belüli kutatás-fejlesztést is kulcsfontosságúnak tartjuk – maga az Alrite is ennek során jött létre. Több mint három éve osztottuk meg a nagyközönséggel, ekkor jelent meg bétaverzióként a piacon, majd 2020 elején elindult az éles verziója – elsőként magyar nyelven.
MI-alapú beszédfelismerő algoritmusként mi mindenben nyújt újdonságot az Alrite?
A felhasználóink visszajelzései, illetve a kutatásaink alapján is azt látjuk, hogy nincs más olyan megoldás, ami olyan pontos lenne, mint az Alrite. A pontosságon túl fontos szempont volt, hogy olyan eszközt hozzunk létre, ami a magyar nyelv sajátosságait, a nyelvünkre jellemző hanghordozásokat, ejtésmódokat, tájszólásokat, a különböző régiók kifejezéseit kezelni tudja. Az Alrite-tal olyan algoritmust fejlesztettünk, ami képes ezeknek a különlegességeknek a kezelésére. Olyan szempontból is újdonság volt, hogy nemcsak a folyó szöveget írja le, hanem mondatokba foglalja az elhangzottakat, írásjeleket, központozást, kis- és nagybetűket használ. Elérhető webes és mobil alkalmazásként is, ezek párhuzamos fejlesztése folyamatosan zajlik, ahogy a mögöttük álló algoritmusé is – például olyan új kifejezésekre tanítjuk, mint a világjárványhoz és az ukrajnai háborúhoz kapcsolódó, közismertté vált tulajdonnevek. Egyre több adatot táplálunk be, hogy növelni tudjuk a pontosságot is.
Az algoritmus taníthatóságát jelenti az, hogy mélytanulás-alapú az alkalmazás?
Igen, ez a mesterséges intelligenciának egy kisebb területe, ami azt jelenti, hogy mélytanuló algoritmusokat használunk a megoldás fejlesztéséhez. Ez a technikai háttér teszi lehetővé, hogy a rendszer folyamatosan tovább tudjon tanulni. Habár elképesztő mennyiségű fájlt töltenek fel az alkalmazásba, a felhasználók adatait nem használjuk fel a tanításhoz, helyette más forrásokból keresünk adatokat, amelyekkel tanítjuk az alkalmazást. A feltöltött adatokhoz a felhasználók kizárólagosan férhetnek hozzá, hiszen a kezdetektől egyértelmű volt, hogy számunkra elsődleges lesz és marad az adatvédelem.
A bétaverzió piacra kerülése óta eltelt négy év során hogyan változott a felhasználók száma?
Ma már több mint hatvanezer felhasználónk van, és több mint hatvan országból használják a rendszert. Ahogy említettem, induláskor csak magyar nyelvre optimalizáltuk az algoritmust, most pedig már angolul, németül, spanyolul, franciául, hollandul és törökül is tud a beszédfelismerő, és folyamatosan bővítjük a nyelveket is.
Ez azt jelenti, hogy egy magyar fejlesztéssel be tudtak törni a nemzetközi piacra?
Így van, igen. A magyar felhasználóink száma továbbra is jelentős, de egyre jobban felfedezi az Alrite-ot a nemzetközi piac, és sokszor már ajánlás útján adják tovább a megoldás nevét a cégek – ez is nagyon jó visszajelzés számunkra.
A felhasználók számával a felhasználók köre is bővült?
Igen, elsőként például a polgármesteri hivatalok kezdték aktívan használni a közgyűlések, különböző ülések szó szerinti leiratozásához. Csupa pozitív visszajelzést kaptunk tőlük, az anyagok átirata az alkalmazással néhány óra alatt elvégezhetővé vált; korábban több napot vett igénybe. Ezt követően elképesztően széles körben kezdték el használni, médiacégektől kezdve a múzeumokon keresztül a különféle irodai tevékenységet végző szervezetekig. A videók feliratozását célzó szolgáltatásunk is népszerű lett. A magánfelhasználók köre is egyre bővül; azt már a bétaszakaszban láttuk, hogy általánosan nagy igény van jó minőségű magyar beszédfelismerő használatára, ezért a magánfelhasználók számára kedvezményes csomagokat alakítottunk ki. Egyik kedves történetünk egy nyugdíjas úré, aki az élettörténetét rögzíti az Alrite segítségével, de sokan használják hétköznapi praktikus megoldásokra.
Mennyire lesz pontos a hangfájlból alakított szöveg?
Nagyon pontos az algoritmus, de nem tökéletes – persze van, amikor az anyagban semmilyen javítás nem szükséges, de ha többórás hangfelvételről van szó, ritka, hogy mindent teljesen ért a rendszert, ezért ha valakinek hiba nélküli, szó szerinti leiratra van szüksége, akkor továbbra is azt javasoljuk, hogy nézze át, mielőtt véglegesíti a fájlt. Ehhez a rendszeren belül praktikus szerkesztőfelületet biztosítunk, nem kell keresgélni a hanganyagban, ugyanis ahová a felhasználó a szövegben kattint, odaugrik a hang- vagy videófájl is, és azonnal visszahallgathatjuk. A pontosítást segíti az a funkció is, amivel a bizonytalan szavakat lehet megjeleníteni.
Ha egy cég rendszeresen használ szakkifejezéseket, kérhet speciális termékfejlesztést?
Igen, erre is van lehetőség. Ilyenkor szükség van tanítóadatokra, azaz azokra az új kifejezésekre, amelyekre szeretnék megtanítani a rendszert, hogy optimalizálva hozzáadjuk a modellhez, majd csak az adott szervezet számára elérhető verzió készül a megoldásból.
A publikus verzió esetében volt olyan fejlesztés, ami felhasználói visszajelzés alapján történt?
Igen, szerencsére folyamatosan kapunk visszajelzéseket, és kiemelt figyelmet szentelünk nekik. Egyrészt a nyelvek megválasztásában, másrészt a felület funkcióinak alakításában jelentenek a visszajelzések befolyásoló tényezőt. Például most készül egy új funkciónk, ami lehetővé teszi a videók feliratának testreszabását. Jelenleg is egy viszonylag összetett felületen lehet beállítani a betűtípust, a betűméretet, az elhelyezkedést, a háttérszínt és így tovább. A felhasználók jelezték, hogy még több megjelenési lehetőséget szeretnének, ahogy azt is, hogy akár két nyelven lehessen elhelyezni a feliratot ugyanazon a videón, így ezeket a fejlesztéseket megvalósítjuk.
Milyen további fejlesztéseket terveznek?
Most alakítjuk ki az élőközvetítés-funkciót, mivel jelenleg a rendszerben csak utólagosan történik meg a fájlok feldolgozása, tehát például diktálás közben nem valós időben, hanem a befejezést követően jelenik meg a leirat. Ennek oka, hogy ha a rendszer utólag dolgozza fel a hangfájlt, ismeri a szövegkörnyezetet, akkor pontosabban tudja leírni az adott szavakat, mint ha egymástól függetlenül kell vizsgálnia és azonnal leírnia őket. Az élőközvetítés-funkció már több nyelven elérhető élő tévéadások feliratozásával kipróbálható az alkalmazásban, a következő verziókban pedig már a saját közvetítésre is lehetőség lesz – ha például egy felhasználó indít egy YouTube-streamet, és megadja a videója elérhetőségét, akkor a követői valós időben tudják feliratozva nézni. Még egy újdonságot említenék: az algoritmus eddig is megkülönböztette a hangfájlokban a beszélőket, a szövegben viszont csak egy kötőjellel jelölte, hogyha új beszélő jelent meg. Új fejlesztésünk segítségével a rendszer meg tudja majd jelölni, hogy melyik beszélő mondja az adott szakaszt, a felhasználó pedig szerkesztés közben elnevezheti a személyeket, így nagyon precíz jegyzőkönyv válik elérhetővé a letöltést követően.
„Egyetemista éveim szemináriumi dolgozatok írásával töltött órái alatt fogalmazódott meg bennem először, hogy ha lenne egy olyan program, ami írott szöveggé alakítja az elhangzott beszédet, egyik álmomat váltaná valóra. Azóta az az idő, amit hanganyagok legépelésével töltöttem, hónapokban vált mérhetővé, pedig kipróbáltam pár kezdetleges beszédfelismerő alkalmazást, de nem igazán nyertek meg maguknak. Talán ez volt az oka annak, hogy amikor kolléganőm az Alrite-ot ajánlotta, kissé kétkedve fogadtam a lehetőséget. Attól tartottam, hogy bonyolult, időigényes és nehézkes lesz a hanganyag feltöltése és az alkalmazás kezelése. Mint kiderült, ebből nemcsak hogy semmi nem volt igaz, de úgy éreztem, hogy ezt az alkalmazást konkrétan nekem készítették. Már maga a letisztult felület megnyerő, a használata pedig olyannyira pofonegyszerű, hogy egy másfél órás hanganyag szöveggé alakítása öt kattintás és öt perc. És ami igazán lenyűgözött, az a beszédfelismerő pontossága és a letöltött dokumentum rendezettsége.”
„Alrite? Nekem all right! Mint amikor feltalálták a varrógépet. Vagy a betonkeverőt. A csavarbehajtót, az elektromos habverőt, az írógép után a szövegszerkesztőt. Lehet nélkülük élni, de velük sokkal jobb. Én konkrétan álmodoztam arról, hogy egyszer majd lesz egy gép, berakom a diktafont, kiadja a szöveget, és de jó lesz. De jó lett! Úgy vagyok az Alrite-tal, ahogy egy bizonyos kisfiú a gumicukorral: üdvözlöm, aki kitalálta.”