2005-08-07

A Century of Elvis

I used to think my dad was Elvis,
but I haven't told him that yet.
I haven't told my dad either

- Belle & Sebastian, A century of Elvis

2005-08-03

Ytterligare kartläggning

Ytterligare kartläggning och frågeställningar under lektionen ger mig följande tankar:

Forskning sker vid:

Universitet
- LiU - IDA
- Carnegie-Mellon University (CMU)
- MIT
- Umeå
- mfl.
Företag
- IBM
- Microsoft
- mfl.
Forskning bör också ske bland folk som använder färdiga taligenkänningsprogram för att forska kring taligenkänning, alternativt bland folk som använder open-source taligenkännaren Sphinx för att utveckla egna varianter av den.
Viktigt att skilja på forskning för att utveckla taligenkänning och forskning för att använda taligenkänning.

Marknadsledande taligenkänningsprogram är bland andra:
- IBM
- Nuance
- Microsoft - Speech Server
- Inbyggt i i Win XP / Office
- DragonSpeech?
- dessa företag/produkter bör ha egna forum/nyhetsbrev/usenet-grupper om sina produkter

Open-Source
- CMU Sphinx (finns i tre versioner)
- Stort community att utforska för information

Statistik
- Det finns säkert intressant 'statistik' kring hur bra de olika taligenkännarna är, prestanda, vilka som använder dem, hur de används, etc. Detta hittas nog lättast på produkternas egna sidor och i forum kopplade till dem eller kopplade till taligenkänning i allmänhet.

Regulatorer
- Finns det några offentliga regulatorer på området?
- Finns det patent som påverkar området? Knappast inom Europa, då mjukvarupatent (gudskelov) är förbjudna. USA däremot borde ha en hel bunt patent kring taligenkänning. Hur hitta dem? Amerikanska patentverket heter?

Publikationer
- Finns det några tidsskrifter som tar upp taligenkänning regelbundet?
- Datavetenskapliga tidsskrifter
- Forskningsrapporter/Doktorsavhandlingar/Exjobb finns det massvis av

2005-08-01

Wikipedia

På svenska wikipedia.org hittar man inget om ämnet taligenkänning. Det finns en mening om talsyntes, dvs. när man försöker skapa tal med hjälp av datorn, men inget om taligenkänning. Söker även på "röstigenkänning", "igenkänning", mfl.

På engelska Wikipedia hittar man en lååång text om speech recognition, tillsammans med länkar till angränsande ämnen, keywords etc. Här ser jag skillnader mellan olika typer av speech recognition, som exv. "grammar constrained recognition", "natural language recognition", etc. Jag hittar också termer som "Hidden Markov Models". Sidan innehåller också länkar till alla, eller åtminstone de flesta, av de ledande taligenkänningsföretagen.

Microsoft

Enkel sökning på microsoft.com ger lite information om deras produkter:

- www.microsoft.com/speech/
- Microsoft Speech Application Software Development Kit 1.1 - låter utvecklare göra egna taligenkänningsapplikationer genom .NET
- Microsoft Speech Server

Man hittar även massor i MSDN genom att söka på "speech recognition", bland annat en katalog/kategori med tekniska artiklar kring utveckling av taligenkänningsapplikationer.

Det finns även ett antal FAQ:er och tutorials för hur man får igång taligenkänning på sin Windows XP dator och i Office med mera. Detta verkar intressant och ska testas strax.

Kartläggning av taligenkänningsområdet

Snabb kartläggning av taligenkänningsområdet utifrån vad jag redan vet:

  • Finns knappast några myndigheter som reglerar vad som får göras, hur det görs etc, detta regleras snarare av forskningsinstitut och var dagens forskning har nått.
  • Man bör skilja på kommersiella taligenkänningsprodukter och forskning inriktad på taligenkänning.
  • Företag som släpper kommersiella taligenkännare är exv. Microsoft, Nuance, "DragonSpeech" eller något sådant och så finns det säkerligen massvis med andra.
  • Open-Source forskningsinriktad taligenkännare: CMU Sphinx, finns i flera versioner.
  • Forskning sker vid många universitet, CMU, LiU, m.fl.?
  • Forskning sker säkerligen även vid många större företag. Microsoft har bland annat gått ut och sagt att de satsar stenhårt på taligenkänning och att det kommer bli jättestort inom de närmaste (tio?) åren.