Steuerung mit Bewegung und Sprache

Neue Interaktionsarten: Geräte mit Bewegungen und Sprache steuern

Sprachsteuerung und Gestensteuerung: Sind das Gegensätze? Wo haben die Technologien Vor- und Nachteile, wo ergänzen sie sich und wie sieht es im Vergleich mit Touchscreen und Tastatur aus?

Sprachsteuerung

Die Sprachsteuerung gilt als einer der wichtigsten und größten Schritte im Bemühen um eine weitere Digitalisierung. Sprachassistenten wie Alexa oder Siri und die Sprachsteuerung im Auto sind die bekanntesten Beispiele für den Einsatz dieser Technologie. Im industriellen Einsatz finden Sprachsteuerungen zum Beispiel auch für die Bedienung von Smartglasses Anwendung oder in Projekten zum Einsatz von sprachgestützten Chatbots. Für spezifische Fachbereiche lassen sich eigene Vokabulare eintrainieren, z.Bsp. in der Medizin.

Heutige Spracherkennungssoftware nutzt, ähnlich wie unsere Gestensteuerung, zur eigentlichen Erkennung meist neuronale Netzwerke oder hybride Ansätze (neuronale Netzwerke + Hidden-Markow-Modelle).

  • Vorteile

    • Ausgereifte Technologie
    • Breite Verfügbarkeit
    • An Nutzer und Fachvokabular anpassbar
    • Einfache Bedienung
    • Auch komplexere Eingaben können effizient erledigt werden
  • Nachteile

    • Probleme mit lauten Umgebungen
    • Meist Serververbindung notwendig
    • Teils Probleme mit Dialekten
    • Privatsphäre / sensible Informationen können nicht eingegeben werden
    • Eingeschränkte Korrekturmöglichkeiten
    • Nicht geeignet für häufig wiederkehrende, „monotone“ Arbeiten bzw. Eingaben

Gesten- und Bewegungssteuerung

Die Gestensteuerung ist eine neuere Art der Interaktion, wenngleich bewegungsbasierte Steuerungen insgesamt schon seit längerem etabliert sind. Im privaten Bereich wurden Bewegungssteuerungen erstmals mit der Nintendo Wii einem größeren Publikum bekannt. Auf professioneller Ebene kommt insbesondere die Gestensteuerung es in verschiedenen Varianten zum Einsatz – als kamera- und als wearable-basierte Ausführungen. Die Anwendungsfälle reichen dabei von der Bedienung technischer Systeme wie Robotern bis zum Ersetzen klassischer Eingabemöglichkeiten in verschiedensten Szenarien.

Ein besonderes Potential versprechen sich viele von einer automatisierten Bewegungserkennung, mit der beispielsweise spezifische Arbeitshandlungen erkannt werden können. So könnte überprüft werden ob benötigte Bewegungen während eines Prozesses auch tatsächlich ausgeführt wurden oder auch bestimmte Bewegungen mitzählen. Das wäre zum Beispiel für das betriebliche Gesundheitsmanagement spannend. Auch hier ist man im privaten Bereich schon etwas voraus: Moderne Smartwatches zählen bereits Liegestütze und andere Fitnessübungen auf Nutzerwunsch mit. 

  • Vorteile

    • Einfache Steuerungsmöglichkeit
    • An Nutzer und Wunschgesten anpassbar
    • Einfache Bedienung
    • Bedienung kontinuierlicher Eingaben und durch Sprache nicht vermittelbarer Eingaben (z.B. Navigation in einem Plan oder auf einer Karte)
  • Nachteile

    • Nicht für komplexe Eingaben geeignet
    • Nutzer müssen Gesten lernen oder System trainieren
    • Anwendungen müssen meistens angepasst werden (kaum native Schnittstellen verfügbar)

Fazit

Die beiden modernen Benutzerschnittstellen Sprach- und Gestensteuerung ergänzen sich unserer Ansicht nach sehr gut und bereiten den Weg in eine digitalisiertere Welt. Gerade da, wo eine der Technologien Nachteile hat, kommen die Vorteile der anderen Technologie zum Tragen. Es wird zwar sicherlich viele Anwendungsfelder geben, die mit einer Eingabemethode auskommen; mächtige und gleichzeitig intuitive Schnittstellen werden aber mehrere Eingabemethoden kombinieren.

Weiterlesen

KI und maschinelles Lernen: Einstieg

KI / Maschinelles Lernen

Kein Thema ist derzeit so präsent wie Künstliche Intelligenz – „KI“. Alle größeren Unternehmen haben bereits entsprechende Programme in der Umsetzung und versprechen sich mehr Umsatz, Gewinn oder Einsparungen. Doch was versteckt sich eigentlich hinter dem Begriff und wie ist die Abgrenzung zu Big Data, maschinellem Lernen und neuronalen Netzen? Und wie setzen wir das Thema bei Kinemic um?

Was ist KI?

Künstliche Intelligenz ist der Überbegriff für Softwareanwendungen, bei denen eine Maschine menschenähnliche Fähigkeiten besitzt, wie z. B. Lernen, Urteilen oder auch selbstständiges Problemlösen. Die bekanntesten Beispiele sind sicher die Schach- und Go-Programme DeepBlue bzw. DeepMind, die gegen die besten menschlichen Spieler gewonnen haben.

Aber KI-Anwendungen findet man auch in vielen weiteren Bereichen – nur wissen dies viele Leute oft nicht. Hier sind ein paar Beispiele für solche KI-Anwendungen:

  • Routenplanung mit dem Navigationsgerät unter Berücksichtigung von z.B. Verkehrslage
  • Suchmaschinen benutzen KI, um das Suchverhalten der Benutzer auszuwerten. Durch die Analyse der eingegebenen Suchbegriffe und vermutlich auch weiterer Informationen wie Zeit, Ort, Cookie-Daten, etc. ermittelt das System, welche Ergebnisse besonders sinnvoll sein könnten und versucht uns bessere Resultate vorzuschlagen.
  • Bild- und Spracherkennung, auch Anwendung bestimmter Filter
  • Automatische Übersetzung
  • Die Feeds bei bspw. Facebook oder Youtube sind Ergebnis eines KI-Algorithmus, der probiert uns individuell möglichst interessante Inhalte zu präsentieren
  • Ebenso nutzen Streamingdienste KI um weitere Lieder, Filme oder Serien vorzuschlagen
  • Wenn im Onlineshop weitere Produkte empfohlen werden kommt auch oft eine KI zum Einsatz
  • Bekannt ist KI auch beim autonomen Fahren. Hier wird mittels zahlreicher Sensoren und Kameras die Umgebung und das Auto permanent kontrolliert.

Darüber hinaus gibt es noch viele weitere Anwendungsfälle und man erkennt schon, dass es teilweise nicht leicht zu sagen ist, ob nun KI zum Einsatz kommt oder ein anderes Verfahren genutzt wird. Als Beispiel sei hier der Warenkorb beim Onlineshopping genannt: Werden weitere Produkte vorgeschlagen, weil andere Benutzer sie gemeinsam im Warenkorb hatten oder weil sie in der gleichen Kategorie sind oder weil der Händler hier gerade eine Prämie erhält? Was also ist KI?

Begriffe: KI, maschinelles Lernen, neuronale Netze

Francois Chollet, Autor des Deep Learning-Frameworks „Keras“, definiert KI als „The effort to automate intellectual tasks normally performed by humans“ – frei übersetzt also “Das Bestreben, geistige Aufgaben, welche normalerweise von Menschen durchgeführt werden, zu automatisieren“. Klassische Computerprogramme eignen sich besonders für Aufgaben, die Menschen schwerfallen, wie z.B. Rechnen mit großen Zahlen oder Durchsuchen von Datenbanken. Probleme, deren Lösungsstrategien sich kaum präzise formulieren lassen und eher auf Erfahrung und Kontextwissen basieren, z.B. Erkennen von Objekten auf Fotos, sind hingegen oft schon für Kleinkinder trivial und bringen gleichzeitig Computer an ihre Grenzen.

Über Jahrzehnte wurden immer neue Arten von KIs zum Lösen solcher Aufgaben entwickelt. Z.B. erhält der Computer beim regelbasierten Lösen (sog. „Symbolische KI“) von Aufgaben die zu verarbeitenden Daten sowie die anzuwendenden Regeln und berechnet daraus Lösungen. Die Regeln müssen allerdings vorher aufwändig durch eine Person definiert werden.

Das maschinelle Lernen („Machine Learning“) bezeichnet ein weiteres Teilgebiet der KI, bei der der Computer hingegen nur einige Beispiele der Daten zusammen mit den Lösungen bekommt und daraus die Lösungsregeln selbst berechnet. Dieses Suchen der Lösungsregeln bezeichnet man auch als „Training“. Die berechneten Regeln können dann auf neue Daten angewendet werden.

Bei der Kinemic Gestenerkennung kommt dieses Verfahren auch zum Einsatz: Ein Machine-Learning System lernt aus Bewegungsdaten und der Information, welche Geste sich jeweils dahinter verbirgt. So werden Regeln abgeleitet wie Gesten und Bewegungsdaten zusammenhängen. Anhand der gelernten Regeln können dann aus neuen Bewegungsdaten Gesten erkannt werden.

Um das „Training“ umzusetzen nutzt man oft neuronale Netze – wir auch. Solche Netze haben ihr Vorbild in der Natur, genauer gesagt im Neuron wie es im Nervensystem oder im Gehirn vorkommt. Ein neuronales Netz besteht aus einer Vielzahl einzelner Neuronen, die Informationen empfangen, verarbeiten und an andere Neuronen weiterleiten. Ein einzelnes Neuron ist dabei sehr simpel – aus einer größeren Menge miteinander verbundener Neuronen entstehen allerdings sehr komplexe Effekte!

Ein wesentliches Merkmal neuronaler Netze ist, dass sie im Gegensatz zu klassischen Computerprozessoren parallel arbeiten, also viele Informationen gleichzeitig durch das Netz verarbeitet werden. Aus diesem Grund werden auch Grafikkarten für das maschinelle Lernen genutzt, da deren Architektur viele einfache Kerne vorsieht und so die hohe Parallelität gegeben ist. Dementsprechend betreiben wir auch mehrere Hochleistungsrechner um hier optimale Ergebnisse erzielen zu können – wobei komplexere neuronale Netze schon gerne mehrere Wochen auch auf leistungsfähigen Systemen benötigen können.

Wie lernt ein KI-System?

Es gibt im Prinzip zwei Ansätze, einem KI-System etwas beizubringen.

  1. Überwachtes Lernen: Beim überwachten Lernen (supervised learning) gibt man eine Eingabe sowie das zugehörige Ergebnis vor und das System soll verstehen, wie es von der Eingabe (also zum Beispiel ein Foto einer Katze) zu den Zielwerten („Das ist eine Katze!“) gelangt. Wenn das System den Zusammenhang zwischen Eingabe und Ergebnis „versteht“, hat es eine Verschaltung von Neuronen entwickelt, die regelmäßig zum richtigen Ergebnis führt. Dann ist es möglich mit dem gleichen System Prognosen für andere Eingabedaten zu generieren.
  2. Unüberwachtes Lernen: Was aber, wenn man gar keine Zielwerte zur Verfügung hat? Für diesen Fall benutzt unüberwachtes Lernen (unsupervised learning). Dies wird genutzt um Ähnlichkeiten in den Daten ausfindig zu machen. So werden ungeordnete Daten aufbereitet und es lassen sich Muster und Zusammenhänge finden.

Beide Ansätze nutzen wir, abhängig von der jeweiligen Problemstellung. Unser Kinemic Gestenerkenner zum Beispiel ist ein KI-System, welches auf einer großen Menge von sorgfältig erhobenen Gestendaten trainiert wird. Damit die Gestenerkennung für jede Person zuverlässig funktioniert, wurden die Trainingsdaten auf einer breiten Benutzergruppe und in unterschiedlichsten Kontexten aufgezeichnet. Wir können dem System so also gut beibringen, welche Bewegungsdaten eine Geste sind und wann der Benutzer eine andere Handlung ausführt.

Wer noch mehr zum Thema KI erfahren möchte dem sei auch der exzellente Kurs https://www.elementsofai.de/ der Universität Helsinki empfohlen, der sich explizit auch an Einsteiger in das Thema richtet. Ebenfalls spannend ist die interaktive Seite von Allison George: „Neural networks from scratch„.

Weitere Informationen natürlich auch immer wieder in unserem Blog.

Weiterlesen

Wearables Übersicht

Wearables: Überblick, Einblick, Ausblick

Was sind Wearables

Als Wearables bezeichnet man elektronische Geräte, die man am Körper bzw. an der Haut trägt. Es gibt Wearables dabei in verschiedenen Formfaktoren, als Brille, Uhr, Ring oder auch einfach nur als kleine Box. Durch die zunehmende Miniaturisierung wird immer mehr Rechenleistung und Sensorik so klein und energiesparend, dass man sie immer länger mitführen kann. Wenn man zurückdenkt an die ersten Computer, die einen ganzen Raum ausgefüllt haben, ist das recht beeindruckend – eine moderne Smartwatch hat mehr Rechenleistung als die Apollo-Mondlandefähre!

Wozu nutzt man Wearables

Mit Wearables lassen sich im Prinzip die gleichen Sachen wie mit jedem anderen Computer bzw. Smartphone auch machen. Das Besondere an Wearables ist aber ihre Nähe zum menschlichen Körper: So kann man Daten wie Pulsschlag, Bewegung oder EKG gewinnen oder auch Sinnesreize vermitteln wie bei Kopfhörern und Brillen.

Wearables Übersicht

1. Smartwatches und Fitnesstracker verfügen über Sensoren, die es ihnen ermöglichen, Körperfunktionen oder auch die Dauer und Intensität sportlicher Betätigung zu erfassen.

Wearables Übersicht

2. Zu den Wearables zählen auch smarte Brillen, wobei man in VR- (Virtual Reality – engl. „virtuelle Realität“) und AR- (Augmented Reality – engl. „erweiterte Realität“) Brillen unterscheidet. Bei einer VR-Brille ist der Großteil des eigenen Sichtfelds von einem Display eingenommen. Aufgrund der Tatsache, dass man keine visuellen Umgebungsreize mehr wahrnehmen kann, taucht man immer tiefer in die virtuelle Realität ab. Zunächst fanden VR-Brillen großen Anklang bei Unterhaltungsmedien (Videospiele & Filme), die Nutzung ist jedoch heute vielfältiger geworden und reicht von Immobilienbesichtigungen, die man von zu Hause abhalten kann, bis zu Anwendungen in der Medizin. Auch das ganz normale „Bildschirmarbeiten“ kann man so mit einer VR-Brille erledigen.

Wearables Übersicht

3. Im Gegensatz dazu nimmt man bei einer AR-Brille seine physische Umgebung zunächst normal wahr. Sie wird jedoch um virtuelle Elemente erweitert, indem unter anderem Grafiken, Benachrichtigungen oder Anwendungsfenster auf das Brillenglas projiziert werden. AR-Brillen werden vermehrt in einem Arbeitsumfeld benutzt, beispielweise bei der Instandhaltung, insbesondere bei der Fernwartung – auch Remote Maintenance genannt. Hierbei tragen ServicetechnikerInnen vor Ort eine AR-Brille und sind mit ExpertInnen aus aller Welt vernetzt. Neben dem Ton überträgt eine Kamera an der Brille in Echtzeit die Sicht auf das Problem und ExpertInnen haben die Möglichkeit, den ServicetechnikerInnen durch Anzeigen auf ihrem Display konkrete Anweisungen zu geben, wie die Störung schnell behoben werden kann. Man kann aber auch bereits bei zahlreichen Ausstellungen und Messen durch digitale Infotexte und Animationen einen noch intensiveren Besuch erleben.

Manchmal wird im Zusammenhang mit Brillen auch von Mixed Reality (MR) und Extended Reality (XR) gesprochen. XR ist dabei der Oberbegriff für alle Arten der erweiterten oder virtuellen Realität. MR ist als Begriff vergleichbar zu AR, wobei die Trennlinie unscharf ist.

Ausblick

Unserer Ansicht nach wird die zukünftige Entwicklung auch weiterhin zu kleineren, leistungsfähigeren und immer unauffälligeren Wearables führen. Das Potential für positive Veränderungen ist dabei in vielen Bereichen sehr groß: Mit mehr Daten von Menschen in ihrer Umwelt können beispielsweise neue medizinische Wirkungszusammenhänge erkannt werden. Die Überwachung und Verbesserung der eigenen Gesundheit und Leistungsfähigkeit ist auch wesentlicher Treiber hinter der Adoption von Fitnesstrackern und Smartwatches. Zugleich lassen sich mit Wearables Vorgänge und Handlungen besser erkennen und unterstützen, ob im Berufs- oder Alltagsleben.

Auf der anderen Seite stehen Bedenken, insbesondere bezüglich immer stärkerer Überwachung, ob durch Staaten, Unternehmen oder Privatpersonen – wie man bei den Debatten um Googles „Glass“ Smartbrillen schon erkennen konnte. Ähnlich wie in anderen Bereichen setzen aber Wearables auch bestehende Gesetze nicht einfach außer Kraft! Allein aufgrund des Formfaktors oder der Art der erhobenen Daten steht man also nicht vor einer komplett neuen Lage.

Wie immer, kommt es also auch bei Wearables darauf an, was wir damit und daraus machen! Mit unseren wearable-basierten Steuerungen und unseren brillenoptimierten Apps möchten wir als Kinemic Menschen bei ihren Aufgaben und Projekten unterstützen – damit Wearables nutzenbringend eingesetzt werden und nicht zum Stressfaktor werden.

Weiterlesen

Apple AssistiveTouch

Apple Assistive Touch

Apple hat vor kurzem zusätzliche Funktionen des kommenden watchOS 8 veröffentlicht. Eine Funktion sticht für uns dabei natürlich heraus: AssistiveTouch, eine Art der Gestensteuerung für die Apple Watch. AssistiveTouch ermöglicht eine einhändige Bedienung der Apple Watch mittels einfachen Fingergesten. Dies soll Nutzern mit Behinderungen am Oberkörper unterstützen, indem sie die Smartwatch einfacher und ohne weitere Berührungen verwenden können.

AssistiveTouch soll eine Eingabehilfe für die Apple Watch werden (Eine Public Beta-Version ist ab Juli unter beta.apple.com für watchOS-Nutzer:innen verfügbar). Mit „Assistive Touch“ kann die Watch Handgesten erkennen, einen Cursor steuern und auf dem Display navigieren.

Funktionsumfang

Die Apple Watch kann die folgenden Handgesten erkennen:

Apple Pinch Geste         Pinch (Berühren des Zeigefingers mit dem Daumen) 

Apple Clench Geste        Clench (Faust/Zusammenpressen)

Die Pinch-Geste dient als grundlegende „Weiter“-Aktion, während die Clench-Geste als „Bestätigen“ dient. Beide Gesten haben jeweils verschiedene Funktionen, je nachdem ob sie einmal oder doppelt ausgeführt werden.

Die Gestenerkennungsfunktion ist dadurch eingeschränkt, dass der Nutzer während der Bedienung auf die Uhr schauen muss. Auf technischer Seite ist das für die Gestenerkennung praktisch, denn so ist sichergestellt, dass man den Arm in einer bestimmten Haltung hält. Dadurch wird die zu lösende Aufgabe „Gesten erkennen“ wesentlich einfacher. Leider handelt man sich so auch den Nachteil ein, dass die Gesten nicht funktionieren, wenn man den Arm anders hält. Der Bildschirm geht aber schnell an, wenn man den Arm hebt und auf die Uhr schaut, also ist das für den Anwendungszweck nicht unbedingt ein Nachteil.

Unterschiede zu unserer Gestensteuerung

Die wesentlichen Unterschiede sind, dass man

  • mit dem Kinemic SDK verschiedenste Geräte mittels Gesten steuern kann
  • die Gesten in jeder beliebigen Armposition machen kann, man muss also nicht auf die Uhr bzw. das Band schauen
  • es mehr Gesten gibt, die jeweils einer frei belegbaren Funktion zugeordnet werden können. So lassen sich auch komplexere Abläufe mit nur einer Geste erledigen.

Hier finden Sie weitere Informationen über unsere Gesten: https://kinemic.com/de/band/gesten/

Motion Pointer

Ähnlich wie unsere AirMouse -> (LINK: Kinemic AR christmas special 2019 – YouTube) gibt es bei Apple auch den sog. „Motion Pointer“. Dies setzt Apple folgendermaßen um: Sobald die Funktion aktiviert ist, kann man mit einem Bewegungszeiger auf der Apple Watch navigieren, indem man die Hand dreht. Man kann den Bildschirm der Apple Watch auch ganz nach rechts oder ganz nach links neigen, um zu anderen Fenstern in den Apple Watch-Apps zu navigieren. Der Motion Pointer kann über das Aktionsmenü oder durch schnelles Handschütteln aktiviert werden.

Unterschiede zu unserer AirMouse

Im Wesentlich bilden Air Mouse und Motion Pointer die gleiche Funktionalität ab. Unterschiede sind natürlich in der Einbindung:

  • Aktivierung der AirMouse durch unterschiedlichste Gesten oder Bewegungen, z.B auch Umdrehen des Armes
  • Mit der AirMouse können weitere Anwendungen gesteuert oder eine normale Maus ersetzt werden, insbesondere in Zusammenhang mit der Kinemic Remote App für Windows und Mac
  • AirMouse nicht verfügbar auf der Apple Watch

Funktionsprinzip

AssistiveTouch nutzt das eingebaute Gyroskop und den Beschleunigungssensor sowie die Daten des Herzfrequenzsensors der Apple Watch, um die Orientierung des Handgelenks und der Hand abzuleiten. (Quelle: https://www.apple.com/newsroom/2021/05/apple-previews-powerful-software-updates-designed-for-people-with-disabilities/)

Verfügbarkeit

AssistiveTouch und Motion Pointer werden voraussichtlich im Herbst 2021 für Apple Watch-Nutzer verfügbar sein, wenn das offizielle watchOS 8 weltweit eingeführt wird. Ein Update auf watchOS 8 wird natürlich notwendig sein. Um AssistiveTouch zu aktivieren muss man die Funktion in die Einstellungen auf der Uhr oder in der Watch App auf dem iPhone einstellen. Es bleibt noch etwas unklar, auf welchen Geräten welche Eingabehilfen funktionieren werden. Laut Apple soll WatchOS 8 zwar bis zur Apple Watch 3 verfügbar sein; es wird allerdings die Sensorik in den neueren Geräten benötigt um die Funktionen umzusetzen.

Unser Fazit:

Apple geht mit der neuen Funktion einen spannenden Schritt Richtung Gestenintegration. Leider bleibt das Feature vorerst sehr eingeschränkt, da es nur zwei Gesten gibt. Körperlich eingeschränkten Nutzern oder Power Usern bietet sich hier dennoch die Möglichkeit, die Uhr auf völlig neue Weise zu bedienen.

Wir hoffen, dass sich im Zuge der Veröffentlichung auch Apples allgemeine Richtlinien zur Umsetzung solcher Steuerungen ändern – Darauf warten wir nämlich schon seit es die Apple Watch gibt! Wir sind wirklich gespannt, ob Apple neue Gesten hinzufügen wird und ob sie planen, die Gestensteuerung auch für andere Geräte zu verwenden.

Weiterlesen

Newsletter

© 2020 Kinemic GmbH. Alle verwendeten Logos und Markenzeichen sind Eigentum ihrer jeweiligen Besitzer.