Na marketéry se valí nový problém, AI hlasy znějí příliš stejně

úterý, 25. června 2024, 14:00 Marketing MediaGuru

Syntetizované hlasy se s rozmachem generativní AI stávají stále výraznější součástí identity firem. Zní ale stejně, upozorňuje Martin Franc z Agnostixu.  

Martin Franc, zdroj: Agnostix

Martin Franc, zdroj: Agnostix

Zatímco v minulosti si většina firem, které se snaží dlouhodobě budovat značku, vytvořila originální hlasy pro jednoduché automaty obsluhující call centrum, u složitější hlasových řešení současnosti, tedy například inteligentních voicebotů nebo hlasových asistentů na bázi AI, zatím originalita pokulhává a vytvořené hlasy znějí často stejně. A to začíná být s přibývajícím množstvím hlasových řešení problém i v komunikační a reputační rovině.  

„Nejčastěji používané hlasové syntézy od Googlu nebo Microsoftu už dnes nestačí a spíš se stávají pro lidi ohranými až otravnými. Nehledě na to, že pak například hlasový asistent v prémiové bance zní stejně jako výdejní box na balíky, vysavač nebo pračka, přitom úroveň jednotlivých technologických řešení schovaných za tím hlasem může být diametrálně odlišná,“ popisuje Martin Franc, spoluzakladatel společnosti Agnostix, která se specializuje na vývoj AI aplikací a nástrojů.   

AI v podobě virtuálních nebo hlasových asistentů, kteří mají klienty nebo zákazníky doprovázet při nějaké činnosti, se přitom stává jakýmsi novodobým mluvčím značky, novou komunikační dimenzí. Využití hlasového rozhraní ve spojení s AI navíc nachází stále více uplatnění, a tedy i větší moc hlasem firemní brand buď chytře budovat, nebo naopak devalvovat

Automobilky v čele

Zdá se, že jako první si to začaly uvědomovat automobilky, tedy alespoň ty prémiové, a začaly na kvalitě a originalitě AI hlasu systematicky pracovat. „Pro automobilky je jednotná identita velmi důležitá. Některé z nich si například zakládají na tom, aby každé jejich nové auto stejně vonělo. Podobně precizně dnes řeší, jak by měl znít jejich asistent, aby do skládačky celé firemní identity přesně zapadl,“ říká Franc

Automobilky ale nejsou jediné, kdo dnes na vyladění hlasu a jeho začlenění do firemní identity pracuje. Obecně se touto problematikou dnes nejvíce zabývají společnosti, pro které je klíčová důvěra v jejich značku, typicky to mohou být bankovní instituce. A pak také společnosti, pro které je hlas přirozeným komunikačním prostředkem, jako jsou telefonní operátoři.

Rozhodně se ale nedá říct, že by s hlasem strategicky pracovali všichni z těchto segmentů. Spíš jde zatím o zářné výjimky a první průkopníky. V dalších firmách a odvětvích pak dobré příklady v podstatě nejsou a práce na kvalitě a originalitě AI hlasu je teprve čeká. Na co by se měly připravit a co je čeká?  

Osobnost rozhoduje

Základním stavebním kamenem je persona asistenta, ze které by měl výsledný hlas vždy vycházet. Kolik mu je let? Jaké má vzdělání? Má děti? Toto zosobnění by pochopitelně mělo být provázáno s celou firemní nebo korporátní identitou a ideálně podloženo i nějakou předchozí analýzou. Pokud se totiž persona asistenta udělá poctivě, výrazně pak pomůže zodpovědět i na mnoho otázek týkajících se finálního hlasu a vůbec celého projevu asistenta. 

Po vytvoření persony následuje standardní audiocasting, tedy výběr z databáze přednahraných hlasů. V ní se hledá hlas, který nejlépe odpovídá personě asistenta a který se typologicky hodí pro danou společnost a její zákazníky či klienty.  

„Po tomto předvýběru hlasu by mělo dojít k živým předtáčkám, při kterých se sejdeme s majitelem nebo majitelkou vybraného hlasu a uděláme samply v různých polohách i rychlostech, abychom si ověřili, že hlas opravdu sedí. Pokud ano, následuje zkušební vytrénování modelu na průřezu zhruba 10 % cílového objemu dat,“ popisuje Franc z Agnostixu. 

Toto zkušební vytrénování slouží na jedné straně ke včasnému odhalení chyb, které by mohly na výsledném hlasu dělat potíže a také k prezentaci a finálnímu odsouhlasení hlasu ze strany klienta. Zdaleka se přitom neřeší jen barva hlasu. V procesu vzniku syntetizovaného hlasu se sleduje a hodnotí mnohem více hledisek.  

„Velmi důležité je například tempo a celá dynamika hlasu. Správně se musí nastavit také typ projevu, tedy zda bude výsledný asistent mluvit stroze, nebo spíše v dlouhých větách. Řeší se také spisovnost versus hovorovost a vůbec celkové naladění hlasu ve smyslu míry vážnosti, zdvořilosti, lehkosti, veselosti a podobně,“ vysvětluje Franc. To vše se musí v rámci režie ohlídat při nahrávání hlasu na trénovacích sadách vět, aby byl výsledek perfektní. Ve chvíli, kdy vše sedí, přejde se k finálnímu dotrénování hlasu.  

Pavouk vs. samouk

Finální nahrávání obvykle zabere okolo 10 hodin čistého nahrávacího času ve specializovaném studiu, ideálně za přítomnosti expertů, kteří rozumí nejen nahrávání hlasu jako takového, ale i jazykovým modelům samotným. Nahrávání přitom musí být rozděleno do několika dní, protože je při něm potřeba udržet konzistentní tón hlasu, což lze maximálně dvě hodiny v kuse. Poté už začíná být na hlase patrná únava, což není žádoucí a na výsledné syntéze by to bylo znát. 

Při trénování hlasu je důležité správně zvládnout například intonaci, která dělá problém zejména v tázacích větách. Samostatnou kapitolou jsou pak artefakty, které vznikají například u dvojhlásek (pavouk vs. samouk) či u slov a písmen, které se jinak píšou a jinak čtou. „Odhalení těchto nuancí u nás mají na starost fonetici, kteří dokážou podobné problémy nejen rozpoznat, ale hlavně doporučit způsob, jakým konkrétní problém v modelu napravit,“ přibližuje Franc.

Nástrah a překážek při tvorbě originálního syntentizovaného hlasu je ale celá řada, proto jich ostatně zatím u nás vzniklo na špičkové úrovni jen několik. Dnes se ale stále jasněji ukazuje, že touto cestou bude nutné dříve či později jít, pokud si firmy nebudou chtít záměrně ničit svůj vlastní brand

Využití hlasu bude totiž s neustále se zlepšující umělou inteligencí nabízet firmám čím dál tím víc možností. Nebude to jen o zákaznických linkách nebo mobilním bankovnictví, syntetizovaný hlas bude člověka doprovázet při mnoha lidských činnostech a pro řadu firem se stane vlajkovou lodí a hlavním symbolem.

Čím dříve si to firmy uvědomí a začnou podle toho k AI a jejímu hlasu přistupovat, tím lépe pro všechny.   

Autor textu: Martin Franc, spoluzakladatel společnosti Agnostix