Hem yttranden Den heliga gralen för röstöversättning, nu på skype | john c. dvorak

Den heliga gralen för röstöversättning, nu på skype | john c. dvorak

Video: Skype Translates Conversations in Real Time (September 2024)

Video: Skype Translates Conversations in Real Time (September 2024)
Anonim

Om du följde datorrevolutionen från början av mikroprocessorn, skulle du veta att det finns ett antal tidiga löften som ännu inte har uppfyllts.

Ett av dessa är on-the-fly översatt tal, där du säger något på engelska och det upprepas på ett annat språk, som spanska, i nära realtid. Även om det fortfarande är ett pågående arbete, är Microsoft nu ett steg närmare med Skype Translator, vars första fas gick live den här veckan.

Om detta kommer nära att fungera och inte är ett skämt är det produktens årtionde. Just nu stöder Skype Translator översättningar från spanska till engelska och engelska till spanska, men fler språk är inställda att följa.

Det typiska problemet med den här typen av saker är den skandalösa svårighetsnivån. Jag har ännu inte sett ett anständigt översättningspaket som gör text-till-text-översättningar som fungerar bra. Talöversättning har en helt annan svårighetsgrad, särskilt i realtid.

Microsoft har en film som visar två barn som talar på spanska och engelska som gör att det ser ut som om det fungerar bra. Men jag såg ett liknande system demonstrerat av IBM för nästan 20 år sedan som aldrig såg dagens ljus. IBMs version utvecklades på 1990-talet, då det fanns en taligenkännande mani som leddes av Lernout & Hauspie, ett företag som gick för bråk - innan det gick över en bedrägeri-skandall 2001. Men innan det köpte man all talteknik företaget det kunde, inklusive Dragon Systems, Berkeley Speech Technologies, Fonix, Dictaphone och andra. Microsoft hade en andel på 8 procent i L&H och hamnade med några av teknologierna som en konkursavskiljningsgåva.

Nu visas Skype Translator plötsligt. Tillfällighet? Hur som helst, det har tagit för lång tid för att komma till denna punkt.

Titta på de eländiga text-till-text datoröversättningar som gjorts av Google och andra. Text undviker inte och kan inte undvika det mest uppenbara av misstag. Inget av detta närmar sig komplexiteten i talöversättning, vilket medför tung signalbehandling.

Jag är en vinkollektör och besöker ofta franska vingårssidor. Min franska är bara okej, så jag aktiverar ofta översättningen för att påskynda läsning av webbplatsen. Här är vi 2014 och ingen av översättarna kan räkna ut att översättningen av Château Margaux är Château Margaux, inte Castle Margaux. Hur svårt är det att avstå och inte översätta ett vanligt använt ord som används i ett riktigt namn, till exempel slott, som vanligtvis hänvisar till en specifik vingård, till ordet slott? Tydligen är det omöjligt. De gör alla det.

Hur svårt är det att skriva något undantag i koden som säger till översättaren att det finns på en webbplats om Bordeaux-vin? På den webbplatsen betyder ordet slott inte slott. Ofta kommer översättaren också att försöka avkoda resten av slottnamnet med löjliga resultat. Det bästa du vanligtvis kan göra med textöversättning är att få en inblick i vad webbplatsen säger.

Fråga dig själv: om text är så svårt, hur kommer Microsoft att hantera tal?

Det är nästan omöjligt även på samma språk. Ta Google Voice-telefontjänsten. Den har en tal-till-text meddelandefunktion. Jag har aldrig fått ett röst-till-textmeddelande som till och med kommer nära vad personen faktiskt sa. Inte en enda gång.

Jag ska erkänna att i ett lugnt rum när du pratar tydligt och tydligt gör röstigenkänning det bra. Jag använder det för textmeddelanden på min Android-telefon. Men i en riktig konversation pratar ingen så. Jag beundrar Microsoft för att ha rullat ut detta. Men det fungerar inte som det annonseras.

Som sagt är det åtminstone något att spela med. Det kan till och med utlösa en ny generation av forskning. Så jag kommer inte klaga för mycket.

Alla vill ha det här. Låt oss återgå till arbetet med det.

Den heliga gralen för röstöversättning, nu på skype | john c. dvorak