Hem Framåt tänkande Intelligent assistenter: vad kommer efter siri?

Intelligent assistenter: vad kommer efter siri?

2024

Video: Google Assistant vs Siri (September 2024)

Intelligenta assistenter - Siri, Google Now, Cortana och liknande - har gått från nyfikenheter och salongstrick för bara några år sedan till viktiga verktyg som många använder i deras dagliga liv. Förra veckan tappade jag av Intelligent Assistants Conference i New York, presenterad av Opus Research, och var imponerad av framstegen som mjukvaran gör inom en mängd olika branscher, inklusive utvecklingen av finansiella, försäkrings- och medicinska företag när det gäller att bygga specifika agenter..

Opus Research-grundare Dan Miller förklarade att många av kärnteknologierna, såsom taligenkänning, har funnits i mer än 20 år. Även om han nyligen har sett några stora förbättringar, snarare än en revolution, sa han "vi är på en evolutionär väg", med massor av produkter på ett kontinuum med olika kapaciteter. Han noterade att det finns hundratals intelligenta företagsassistenter som kan användas för en enkel textbaserad konversation på vanligt engelska med hjälp av en fast datauppsättning, och för saker som att navigera på en webbplats eller en FAQ. I den andra änden av spektrumet finns det förmodligen bara några få dussin "dynamiska appar med mänsklig känsla" som är mer konversations- och kontextmedvetna.

Miller pekade på ansökningar som vann utmärkelser vid konferensen. Amtrak's Julie började som en interaktiv telefonservicetjänst för år sedan, men har nu utvecklats till en agent som fungerar på webbplatsen för att vägleda resenärer genom Amtrak.com, baserad på en agent från Next IT. Telefonica Mexico har en agent som heter Nico som har en avatar och ger också support via Twitter och Facebook, baserat på AgentBots plattform. ING Netherlands har Inge, en app som låter dig kontrollera ditt bankkontosaldo eller överföra pengar via röst med hjälp av röstbiometrisk teknik från Nuance för att verifiera din identitet.

Hederliga omnämningar inkluderar hälsoapplikationer, till exempel en app som hjälper dig att välja en sjukvårdsplan. Andra applikationer jag hörde talas om på showen inkluderar Domino's Pizza, som har en app som heter Dom som låter dig använda röst för att beställa pizza; och BMW, som har en virtuell agent som en del av sin Up2drive autofinansieringsarm.

Nuance's Brett Beraneck talade om hur framstegen i neurala nätverk med djup inlärning har förbättrat saker som naturligt språkförståelse och röstigenkänning, och hur detta nu går samman för att möjliggöra ett mycket mer intresse för området. Nuances Nina-assistent var ett tidigt exempel, och sedan dess har det vuxit till många specifika applikationer, allt från interaktiva röstsvarssystem hos försäkringsbolag till shoppingappar. Var och en av dessa applikationer har en annan personlighet, beroende på vad den försöker hjälpa dig.

En stor ny funktion som han diskuterade var röstbiometri, där din röst ersätter ett lösenord. Han berättade om hur företag som ING i Europa utvecklar agenter som inte bara använder röstigenkänning och naturlig språkbehandling, men också börjar använda röst för att känna igen den som ringer. Han sa att detta var både säkrare och mer naturligt än ett traditionellt lösenord.

Medan nyligen genomförda studier har oroat sig för att röstinspelningar kan lura sådana system, noterade Nuance att dagens teknik innehåller funktioner som syftar till att plocka upp avvikelser från inspelade röst och pekade på andra studier som tog en annan synvinkel. Dessutom, sade han, kan formgivare använda olika nivåer av röstbiometri för olika funktioner, till exempel att använda enkelt igenkänning för att kontrollera en kontosaldo, eller be dig om att upprepa en slumpmässig ordningsföljd för betydande överföringar.

Röstbiometri verkar verkligen få lite dragkraft. Vid förra veckans Gartner Symposium, en session om "coola kundfall" i finansiella tjänster inkluderade en Citibank-app som använde den här funktionen.

MyWave har en assistent som heter Frank som är tänkt att kunna aktiveras av flera företag så att du kan interagera med dem på ett mer samtalande sätt, snarare än att varje företag ska utveckla sitt eget. De första användningarna inkluderar en Nya Zeelands bank och en app som heter Saveawatt som är utformad för att hjälpa dig välja din elleverantör.

VD Geraldine McBride förklarade att företaget försöker skapa assistenter som överbryggar klyftan mellan kunder och serviceappar, med vad det kallar "kundstyrda relationer" eller CMR, en snurr på traditionella CRM-applikationer. En stor skillnad, sade hon, är att kunden ansvarar för alla hans eller hennes data, snarare än verksamheten.

Ett annat relativt nytt företag, Expect Labs, har en produkt som heter MindMeld som fungerar som en backend till ett antal företag som vill erbjuda ett röstgränssnitt för att ersätta traditionella gränssnitt och hantera frågor och svar. Detta kan användas för en mängd olika applikationer, som att titta på TV-program genom att bara fråga namnet och ha systemfrågan om flera system. (Amazons Fire TV har några av dessa funktioner, men är inte integrerad med din kabel set-top box, medan en av investerarna i Expect Labs är kabelföretaget Liberty Global.)

VD Tim Tuttle förklarade att MindMeld tenderar att använda det taligenkänning som redan finns på de flesta enheter och istället fokuserar på naturlig språkförståelse och att bygga en kunskapsgraf över tillgänglig information. Han sa att företaget försöker skala systemet för att inkludera mer information från flera källor och att dela upp hierarkierna för olika kategorier av information som är en del av de flesta sådana system. Att verkligen förstå frågor betyder att man kan förstå avsikt i olika kategorier, sade han.

En sak som jag hörde från ett antal deltagare var statistik som tyder på att cirka 10 procent av alla webbsökningar nu görs via underrättelseagenter. (AI-pionjären Andrew Ng sa att detta var sant för röstsökning på Baidu förra året och flera personer sa att detta nu var sant på Google också, men jag har inte hört någon förstahandsbekräftelse.)

Ser fram emot, sade Opus Researchs Miller att det fortfarande fanns mycket arbete att göra. Systemets grundläggande noggrannhet har gott om utrymme för förbättringar, särskilt när du går från vad du säger till vad du menar till vad du ska göra som resultat. Han nämnde ett föredrag från Xerox PARC: s vd Stephen Hoover vid konferensen, som sa att systemen i dag nu är upp till 90 procent korrekta för att förstå vad vi menar, men att 10 procent fortfarande är ett problem eftersom det är vad de flesta kommer ihåg när de hanterar ett system. Och Miller sa att det finns utrymme för bättre personalisering, för om systemet vet vem det pratar med kan det ge bättre resultat. Till exempel noterade han att Facebook vet vem som använder systemet eftersom du är inloggad; och sa att sömlöst att göra detta med fler agenter kommer att bli viktigare.

Det är verkligen en fascinerande kategori, och jag förväntar mig att vi alla kommer att spendera mycket mer tid på att prata med våra telefoner och datorer och interagera med agenter som inte är riktigt mänskliga. Jag tycker att det här är en av de mest spännande trenderna inom datorer i dag.