Forschungsprojekt Blindenkurzschrift-Rückübersetzung | |||||||||||||||||||||||||||||||
|
Das international gültige Blindenschrift-Alphabet wurde
im Jahre 1825 von Louis Braille (1809 - 1852) geschaffen. Mit
dieser Art von Punktschrift, bei der 6 Punkte in 2 senkrechten Reihen nebeneinander
stehen und einen "Buchstaben" bilden, lassen sich bis zu 63 verschiedene
Zeichen darstellen. Die erhabenen Punkte eines Zeichens stehen dabei so
dicht beieinander, dass Sie mit dem Finger als Ganzes ertastet werden können.
Der Platzbedarf eines Zeichens richtet sich mit 6 mm x 10 mm
nach der Fingerkuppe eines erwachsenen Lesers.[1]
abcdefghijklmnopqrstuvwxyz
Um den Platzbedarf zu reduzieren und Texte schneller schreiben
und lesen zu können, wurde die deutsche Blindenkurzschrift geschaffen.
Diese beinhaltet 346 Abkürzungen für Lautgruppen, Silben und ganze Wörter
(ähnlich der Stenografie). Dazu kommt ein Regelwerk, das bestimmten Kürzungen
abhängig von ihrer Stellung im Wort jeweils eigene Bedeutungen zuweist
und damit die Mehrfachverwendung einzelner Zeichen ermöglicht. Die Kurzschrift
reduziert den Umfang eines Textes im Mittel um 30 % gegenüber der
"Schwarzschrift", wie die Schrift der Sehenden von Blinden
genannt wird.
Nicht alle Wörter und Sonderzeichen der Blindenkurzschrift sind zweifelsfrei
rückübersetzbar. Während ein menschlicher Leser diese
Zweifelsfälle aus dem Kontext heraus auflösen kann, hat der Computer
in manchen Fällen ernste Schwierigkeiten. Der Programmieraufwand für
eine 100 %-Lösung erscheint bald größer und größer, wenn man
sich intensiver mit der Materie auseinandersetzt. Die deutsche Blindenkurzschrift
galt deshalb in Fachkreisen weithin als "nicht rückübersetzbar".
Betrachten wir nun die Aufgaben, die es dabei zu lösen gilt.
Die meisten Kürzungen werden in Form einzelner Buchstaben
oder Buchstabenkombinationen dargestellt, die in der Schwarzschrift auch
als normale Wortbestandteile auftreten. Sie bestehen nur selten aus eindeutig
rückübersetzbaren Zeichen - etwa Zahlen oder Sonderzeichen, wie
sie sonst in Wörtern nicht vorkommen. Es sind also nicht alle Buchstaben
oder Buchstabenfolgen in gekürzten Wörtern als Kürzungen zu interpretieren.
Beispiele: Die Endungen "-UNG" und "-HEIT" werden mit den einzelnen Buchstaben "u" und "h" dargestellt, und zwar sowohl am Ende eines Wortes als auch mitten im Wort. Eine typische Anwendung dieser Regel finden wir in Wörtern wie "Heizung" und "Heizungsmonteur" entsprechend "h3zu" und "h3zusmont2r" oder "Einheit" und "Einheiten" entsprechend "6h" und "6hc". Demnach müsste das gekürzte Wort "kuh" (das Tier) bei der Rückübersetzung mit "Kungheit" wiedergegeben werden, was offensichtlich falsch ist. Weiterhin gibt es zahlreiche zweiformige Kürzungen, wie etwa "zs" für "zusammen", die häufig als Wortbestandteil von Nomen oder Nomenkomposita auftreten. So darf "zs" bei Wortfugen wie in "Salzsäure" oder "Ersatzspur" nicht rückübersetzt werden.
Es gibt unterschiedliche Wörter, die nach der Kürzung zum gleichen Wortbild
(Punktmuster) führen. Diese Wörter können nur aus dem Kontext richtig
interpretiert werden.
Beispiele: Der Ort "Verchen" und das Wort "vermöchten" werden in Blindenkurzschrift beide als "v74c" dargestellt. Das Wort "Grabschrift" wird in Blindenkurzschrift als "grab5t" dargestellt, ebenso das Verb "grabscht" (von "Grabschen"). Auch der Plural "Grabschriften" wird mit "grab5tc" identisch dargestellt wie das Verb "grabschten". Das "Figurteil" wird ebenso wie das "Fertigurteil" als "f>urt3l" in Blindenschrift dargestellt.
Diese Aufzählung könnte noch fortgesetzt werden. Insbesondere
bei Eigennamen, bei denen alle möglichen Zeichenfolgen jenseits linguistischer
Regeln vorkommen können, sind solche Mehrdeutigkeiten zu finden.
Da der Zeichenvorrat von 63 möglichen Punktkombinationen
nicht zur Darstellung aller möglichen Textzeichen ausreicht, arbeitet
die Blindenschrift mit Ankündigungszeichen und Einschubzeichen, bei denen
einzelne Zeichen, Wörter oder längere Texte durch An- und Abkündigungstechniken
eine andere Bedeutung erhalten. Dazu gehören Einschübe in Mathematikschrift,
8-Punkt-Computerbraille (zur Darstellung von Internet-Adressen und Dateinamen),
Fremdsprachen und ungekürzte Textpassagen. Diese Einschübe müssen erkannt
und durch besondere Rückübersetzungsmodi in Normalschrift zurückgeführt
werden.
Beispiele: Das Wort "Tagesschau" wird mit "tag%51" übersetzt, die Internet-Adresse "www.tagesschau.de" dagegen als Einschub in Computerbraille mit "'$www.tagesschau.de". Der hierbei verwendete Apostroph (Punkt 6) kann in anderem Zusammenhang auch als Ankündigung für Kleinschreibung dienen, das Dollar-Zeichen (Punkte 4, 6) als Ankündigung für Großschreibung. Fachbegriffe können in Blindenschrift zur besseren Lesbarkeit als Einschub in Vollschrift (weitgehend ungekürzt) dargestellt werden. Dann wird ihnen die Zeichenfolge "Apostroph-Punkt" vorangestellt wie in "'.desoxiribonukleins`ure".
Für fremdsprachliche Einschübe wird dasselbe Zeichen verwendet, das im
Wortinneren oder am Wortende für die Kürzung "ACH" steht. Für
die Großschreibung einzelner oder mehrerer Buchstaben im Wortinneren werden
die gleichen Zeichen verwendet, die für die Kürzungen "CK" und
"IG" stehen. In solchen Fällen dürfen dann keine Kürzungen innerhalb
des Wortes verwendet werden.
Akzentbuchstaben können in der deutschen Blindenschrift
auf zweierlei Weise dargestellt werden: entweder in Umschrift oder mit
den Braillezeichen aus der jeweiligen Sprache. In beiden Fällen wird ein
Akzentbuchstabe mit einem vorangestellten Punkt 4 angekündigt (in der
Schwarzschrift entspricht dieser einem Anführungszeichen).
Beispiel: "Café Molière" kann entweder als "'caf"e moli"ere" oder als "'caf"% moli"~re" dargestellt werden. Selbst die letztgenannte Darstellungsform, die Hoffnungen auf eine eindeutige Rückübersetzbarkeit weckt, erweist sich als nicht hinreichend, da es bereits innerhalb der wenigen europäischen Sprachen mehrfach verwendete Braillezeichen bei den Akzentbuchstaben gibt.
Die deutsche Blindenschrift unterscheidet nicht zwischen sich öffnenden
und schließenden Klammern, was die Zuordnung von Klammerpaaren
erschwert.
Beispiele: "(siehe unten)" wird übersetzt mit "=s0he /tc=". "[Anmerkung des Verfassers]" wird übersetzt mit "'=+m7ku . -fa~7s'=".
Dazu kommen weitere Sonderzeichen, für die es in der Schwarzschrift mehrere
unterschiedliche Zeichen gibt.
Beispiele:
Das Abtrennungszeichen, bestehend aus den Punkten 5 und
3, 6 kann je nach Kontext für einen senkrechten Strich, ein Aufzählungszeichen
(Mittepunkt) oder ein Silbentrennzeichen usw. stehen.
Der Punkt 6 kann als Apostroph, als Ankündigungszeichen für Kleinschreibung
oder als Aufhebungszeichen verwendet werden. Das Aufhebungszeichen
gibt einem oder mehreren nachfolgenden Zeichen deren ursprüngliche Bedeutung
zurück. Diese sind dann beispielsweise nicht mehr als Kürzung zu interpretieren.
Einige Zeichen haben in der Blindenkurzschrift am Wortanfang
eine andere Bedeutung als am Wortende oder im Wortinneren. Ein Zeichen
kann also abhängig von dessen Stellung für eine andere Kürzung stehen
oder muss als Ankündigungs- oder Satzzeichen gelesen werden. Bei der Zahlendarstellung
beispielsweise müssen die Buchstaben "a" bis "j" als Zahlen
gelesen werden, wenn ein Zahlzeichen vorangestellt wird. Diese intensive
Mehrfachverwendung einzelner Zeichen, abhängig von der Stellung im Wort,
stellt eine zusätzliche Hürde dar.
Beispiele: Für die Zahlen 1 bis 9 und 0 werden die Buchstaben a bis j mit vorangestelltem Zahlzeichen verwendet ("#a" bis "#i" und "#j"). Das Zahlzeichen kann jedoch innerhalb und am Ende von Wörtern auch für die Zeichenfolge "ICH" stehen. So wird das Wort "striche" als "}r#e" umgesetzt. Steht zusätzlich ein Komma vor dem Zahlzeichen, so steht es für "richt", etwa in "Gerichte" entsprechend "&,#e". "#e" ist in diesen Fällen nicht als Zahl "5" zu lesen wie etwa bei "5fach" entsprechend "#e'f<". Die Satzzeichen ",", ";", ":", "?" und "!" werden als Ankündigungszeichen oder zur Darstellung von Lautgruppen verwendet, wenn sie nicht am Ende eines Wortes stehen. So wird "analog!:" mit "+:og+:" übersetzt. "+:" ist am Wortanfang als Folge von Buchstaben, am Ende jedoch als Folge von Satzzeichen zu lesen. Das Zeichen "x" steht am Wortanfang für die Vorsilbe "EX-", am Wortende für die Nachsilbe "-NIS" und im Wortinnern ebenfalls für "-NIS" oder für den Doppelkonsonant "MM". Der Buchstabe "x" wird dagegen mit vorangestelltem Apostroph als "'x" dargestellt. Allein stehend steht "x" für "immer", und auch in Wörtern wird es für "immer" verwendet, wobei dann ein Komma vorangestellt werden muss.
Die deutsche Blindenschrift unterscheidet im Regelfall nicht zwischen Groß-
und Kleinschreibung. Eine Kennzeichnung ist nur in Sonderfällen
vorgeschrieben. Von rückübersetzten Texten wird jedoch eine korrekte
Wiedergabe der Groß-/Kleinschreibung erwartet. Sie müsste durch ein geeignetes
Verfahren rekonstruiert werden, wie etwa der Klassifizierung von Wörtern
und grammatikalischen Analyse von Sätzen.
Beispiel: Der Satz "Ein Blinder hat bei seinem Lesen große Mühen" wird übersetzt mit "6 bl*d7 ht b 9{ l%c g~e m8hc" (nach der Übersetzung sind keine Großbuchstaben mehr vorhanden).[2]
Der hohe Platzbedarf der Blindenschrift bringt einen häufigeren Zeilenumbruch
mit sich als in der Schwarzschrift. Die Silbentrennung hilft dabei, Platz
zu sparen. Durch die Silbentrennung werden gekürzte Wörter in 2 Teile
getrennt. Diese Situation muss an Zeilenenden erkannt und die Wörter wieder
zusammengesetzt werden. Diese Problematik wird durch mögliche Auslassungsstriche
vor oder nach Wörtern, die mit Trennstrichen verwechselt werden könnten,
noch verschärft.
Durch die Kurzschrift als Kulturtechnik der Blinden entsteht
ein Kommunikationsbruch zwischen Sehenden und Blinden. Man könnte sogar
sagen, dass die Blindenkurzschrift Sehende ausgrenzt, da sie Texte, die
von Blinden verfasst wurden, nicht lesen können. Dies ist besonders relevant
in Schulen und an Arbeitsplätzen, an denen Sehende und Blinde gemeinsam
lernen und arbeiten.
Folgende Anwendungsgebiete verdeutlichen die Notwendigkeit für die Rückübersetzung:
Ausgehend von der UN-Konvention über die Rechte von Menschen mit Behinderungen
entstanden in den letzten Jahren zunehmend Ländergesetze zur Gleichstellung
blinder Menschen. Dies kommt auch der Blindenschrift als Informations-
und Kommunikationsmedium zugute.
So sagt Artikel 2 der UN-BRK:
"Im Sinne dieses Übereinkommens schließt 'Kommunikation'
Sprachen, Textdarstellung, Brailleschrift, taktile Kommunikation …
sowie ergänzende und alternative Formen, Mittel und Formate der Kommunikation,
einschließlich leicht zugänglicher Informations- und Kommunikationstechnologie,
ein."
Eine EU-Richtlinie aus dem Jahre 2001 hat die Blindenschrift in das Bewusstsein
einer breiteren Bevölkerungsschicht gerückt: die auf dieser EU-Richtlinie
basierende 12. Novelle des Arzneimittelgesetzes schreibt ab 2007 die Kennzeichnungspflicht
in Blindenschrift auf Verpackungen von Medikamenten vor.
Immer häufiger sieht man Blindenschrift auch im öffentlichen Raum, in
Aufzügen, auf Handläufen in Bahnhöfen und Flughäfen, auf Türschildern
in öffentlichen Gebäuden usw.
Das deutsche "Behindertengleichstellungsgesetz" (BGG) vom 27.04.2002
möchte eine Benachteiligung von Menschen mit Behinderungen verhindern
und für eine gleichberechtigte Teilhabe am Leben in der Gesellschaft sorgen
und Menschen mit Behinderungen eine selbst bestimmte Lebensführung ermöglichen
(§ 1 BGG).
Das Behindertengleichstellungsgesetz mündete in zwei für blinde Menschen
bemerkenswerte Verordnungen:
1. Die "Barrierefreie-Informationstechnik-Verordnung" (BITV 2.0)
vom 12.09.2011
vom 17.07.2002
Letztere bildet die Rechtsgrundlage dafür, dass blinde Menschen einen
Anspruch auf Dokumente in Blindenschrift im Verwaltungsverfahren haben.
Die Forderungen des deutschen Blinden- und Sehbehindertenverbandes (DBSV)
gehen noch weit über das bisher Erreichte hinaus, was die sog. "Mainzer
Erklärung" deutlich macht:
Dieses "Recht auf Braille" sollte sich auch auf die Bildungspolitik
auswirken, was der DBSV unter dem Thema "UN-Behindertenrechtskonvention
und Bildung" darlegt:
In diesem Zusammenhang muss auch der sog. "Marrakesch-Vertrag"
erwähnt werden, dessen Umsetzung im deutschen Urheberrecht
die Basis für die barrierefreie Aufbereitung und Verbreitung von Büchern
und Zeitschriften bildet:
In diesem Kontext wird deutlich, welche Bedeutung einer Blindenschrift-Rückübersetzung
zugemessen werden kann, die früher für nicht machbar gehalten wurde.
5.1 Projektziele
Ziel ist ein Kurzschrift-Rückübersetzungsprogramm,
das sich durch portablen Code für den Einsatz auf unterschiedlichen Plattformen
eignet (Windows, Macintosh, Linux) und aufgrund hoher Performance auch
für eine Implementierung in embedded Systems geeignet ist.
Im Hinblick auf die oben genannte Problemstellung soll hier nur die Frage
erörtert werden, wie die reine Wortübersetzung implementiert werden kann.
Letztlich entscheidet sich die Rückübersetzbarkeit im Wesentlichen daran,
ob und wie viele Wörter aus der Schwarzschrift zum gleichen Wortbild in
Blindenschrift führen und somit nicht eindeutig sind.
Die Rückübersetzung von Texten besteht darin, ein jeweils gegebenes Wortbild
in Blindenschrift in das ursprüngliche Wort aus der Schwarzschrift zu
überführen. Es gilt also, ein bestimmtes Punktmuster zu erkennen und
durch ein Wort in Normalschrift zu ersetzen. Möglicherweise wäre eine
Mustererkennung mithilfe eines neuronalen Netzwerks ein brauchbarer Lösungsansatz.
Oder etwa eine Datenbank, in der alle denkbaren Punktmuster und deren Entsprechungen
gespeichert sind.
In jedem Fall muss eine Trigramm-Analyse durchgeführt werden, um das jeweils
richtige Wort aus dem Kontext zu bestimmen. Wird ein gut durchdachter "Suchen
und Ersetzen"-Algorithmus verwendet, so ist auch zur Bestimmung der
richtigen Kürzungen innerhalb eines Wortes eine Trigramm-Analyse erforderlich.
Das bedeutet, dass mögliche Kürzungen daraufhin untersucht werden müssen,
ob die Zeichenfolgen davor und danach dafür sprechen. Letztlich hat sich
der Autor für diesen Ansatz entschieden, bei dem ein Zeichen oder eine
Zeichenfolge nur dann als Kürzung interpretiert wird, wenn der Kontext
es hergibt.
Das RTFC Braille Modul ist als Dynamic Link Library (DLL)
für Windows und als portabler C-Quellcode für die Implementierung in
embedded Systems erhältlich.
Zum Test des Algorithmus wird vom Autor ein Wortschatz im Umfang von 2
Millionen Wörtern verwendet, der als reiner Text einen
Speicherbedarf von rund 40 MB hätte. Der Programmcode einschließlich
aller Daten, der diesen Wortschatz mit über 99,99 % Genauigkeit quasi
fehlerfrei übersetzt, ist jedoch nur rund 400 kB groß.
Neben RTFC selbst haben bereits 8 Firmen das RTFC Braille Modul in ihre
Programme oder Geräte integriert. Während RTFC die
Rückübersetzung von Dateien und Tastatureingaben unter Windows ermöglicht,
bieten mittlerweile zahlreiche Braillezeilen, Notizgeräte und Screenreader
gleichartige Funktionen mithilfe des RTFC Braille Moduls an.
Für Software unter Windows bieten wir ein Braille SDK
zum Festpreis an, während das Modul für embedded Systems zu einem erschwinglichen
Stückpreis pro Gerät erhältlich ist.
Anfragen von Hard- und Softwareherstellern sind erwünscht.
Created: 2010/01/12 18:00 Updated: 2024/03/10 10:00
Author: Dipl.-Ing. (FH) W. Hubert Copyright © 2024 RTFC Service |