Sprach-Engineering

Die Macht der Sprache

Sprach-Engineering
DE EN ES FR IT

Inhalt

Sprache heute
Sprache in Aktion
Sprache ist unentbehrlich
Die Sprache nutzen
Techniken und Ressourcen
Was ist Sprach-Engineering ?
Komponenten der Technik
Techniken
Sprechererkennung und -verifizierung
Spracherkennung
Buchstaben- und Formaterkennung
Verstehen von natürlicher Sprache
Textgenerierung
Generierung gesprochener Sprache
Sprachressourcen
Wörterbücher
Fachwörterbücher
Grammatiken
Korpora
Die Entwicklungs- und Anwendungskette
Auswirkung des Sprach-Engineering
Globaler Wettbewerb
Bessere Information
Direkter Zugang zu Diensten
Elektronischer Geschäftsverkehr
Effiziente Kommunikation
Zugang und Nutzung
Verbessertes Bildungsangebot
Unterhaltung, Freizeit und Kreativität
Vorteile
Glossar - Gängige Terminologie


Sprache heute

Sprache in Aktion

Sprache ist das natürliche Mittel des Menschen zur Kommunikation, seine effizienteste Möglichkeit, sich auszudrücken und verständlich zu machen. Wir benutzen Sprache auf vielerlei Art: u. a. um komplexe Vorstellungen und Begriffe zu erläutern, Personal zu verwalten, Verhandlungen zu führen, unseren Bedürfnissen Ausdruck zu verleihen, unsere Gefühle in Worte zu fassen, Geschichten zu erzählen, unsere Kultur für spätere Generationen aufzuzeichnen und die Schönheit der Sprache in Poesie und Prosa einzufangen. Für die meisten von uns besitzt Sprache einen hohen Stellenwert, da sie alle Facetten unseres Lebens berührt.

Der Gebrauch von Sprache stöß normalerweise an Grenzen. Im allgemeinen wird Sprache nur für die unmittelbare Kommunikation zwischen Menschen und nicht für die Kommunikation mit Systemen, Diensten und Geräten eingesetzt, die wir tagaus, tagein benutzen. Sogar zwischen den Menschen selbst ist das Verständnis in aller Regel auf Gruppen beschränkt, die eine gemeinsame Sprache sprechen. In dieser Hinsicht kann Sprache nicht nur eine Verständigungshilfe, sondern bisweilen auch ein Kommunikationshindernis sein.

Wir erleben einen Wandel, der die Art, wie wir Sprache nutzen, revolutioniert und den Wert der Sprache in allen Bereichen der Kommunikation steigert. Dieser Wandel geht auf Entwicklungen auf dem Gebiet der Sprachdatenverarbeitung zurück, die man heute als Sprach-Engineering (im Englischen: Language Engineering, LE) bezeichnet.

Sprach-Engineering zeigt uns neue Wege auf, die Nutzung der Sprache zu erweitern und zu verbessern und dadurch Sprache als effizientes Werkzeug einzusetzen. Sprach-Engineering beruht auf umfassender Kenntnis von Sprache und ihrer Funktionsweise. Dieses Wissen wurde durch Forschung erworben. Sprach-Engineering macht sich Sprachressourcen, wie z. B. elektronische Wörterbücher und Grammatiken, Terminologiedatenbanken und Korpora, zunutze, die im Laufe der Zeit entwickelt wurden. Die Forschung klärt uns darüber auf, was wir über Sprache wissen müssen, und entwickelt die Techniken, die wir brauchen, um Sprache verstehen und damit umgehen zu können. Die Ressourcen stellen die Wissensgrundlage dar, die für die Erkennung und Validierung, für das Verständnis und den Umgang mit Sprache unter Ausnutzung der Leistungsfähigkeit von Computern erforderlich ist. Durch Umsetzung unserer Kenntnis von Sprache in die Praxis können wir neue Wege erschließen, um Lösungsansätze für politische, soziale und wirtschaftliche Probleme zu entwickeln.

Sprach-Engineering ist eine Technik, die durch Einsatz unserer Kenntnis von Sprache zu einer besseren Nutzung von Computersystemen beiträgt:

Wenn wir unsere sich stets weiterentwickelnde Kenntnis von Sprache nutzen, werden wir viele Dinge anders, einfacher und wirkungsvoller handhaben können als bisher.

Wenn eine Maschine über die tastaturgestützte Dateneingabe hinaus auch natürliche Sprache in geschriebener und gesprochener Form in einer Vielzahl von Sprachen erkennen kann, dann werden wir alle ein reichhaltiges Angebot an Informations- und Kommunikationsdiensten sowie die Möglichkeiten zur telefonischen oder elektronischen Abwicklung geschäftlicher Transaktionen besser nutzen können.

Wenn eine Maschine menschliche Sprache versteht, zwischen verschiedenen Sprachen hin- und herübersetzen und als Output sowohl gesprochene als auch geschriebene Sprache generieren kann, dann wird uns das in vielen Bereichen unseres Lebens enorm weiterhelfen.

Wenn eine Maschine uns schnell zu einem besseren gegenseitigen Verstehen verhelfen kann, können wir auf wirtschaftlicher und staatlicher Ebene effizienter zusammenarbeiten und zusammenwirken.

Der Erfolg von Sprach-Engineering hängt von der Verwirklichung all dieser Ziele ab. Einige sind bereits heute realisiert, auch wenn noch Verbesserungsbedarf besteht. Das Rad des Fortschritts dreht sich immer schneller, und die kommenden Jahre werden viele neue Entwicklungen bringen.


Sprache ist unentbehrlich

Sprache ist ein wirksames Mittel zur Kommunikation. Sie ist darüber hinaus ein Medium, mit dessen Hilfe wir Informationen aufzeichnen und aufnehmen können. In der Praxis ist sie das ideale Mittel zur Darstellung des überwiegenden Teils der von uns benötigten Information. Sprache spielt sowohl in der Wirtschaft als auch in der Verwaltung eine maßgebliche Rolle. Für viele gesellschaftliche, kulturelle und politische Aspekte unseres Lebens ist sie von großer Bedeutung, und sie ist fester Bestandteil unserer Kultur. Jedem von uns hilft sie, sich selbst zu definieren.

Die Muttersprache ist Träger unserer nationalen und kulturellen Identität, denn sie knüpft das Band zu unseren Traditionen und bildet die Grundlage für unsere Bildung und unsere Unterhaltung.

Die sprachliche und kulturelle Vielfalt Europas bietet uns die Chance, viel über unsere jeweilige Kultur und Lebensart voneinander zu lernen. Das ist und bleibt eines der Fundamente für den Zusammenhalt in Europa. Soll die mehrsprachige Gesellschaft auch künftig den europäischen Lebensstil prägen, müssen wir neue Wege finden, um die Hindernisse zu überwinden, die Kommunikation und Verständigung im Wege stehen.

Bisweilen ist zu hören, es sei durchaus möglich, auf internationaler Ebene im Geschäftsverkehr, in Verwaltung und Politik mit nur ein oder zwei Sprachen auszukommen. Dies ist bis zu einem gewissen Grad richtig. Es kann jedoch niemals voll und ganz zufriedenstellend sein. Die Dominanz einiger weniger Sprachen wäre gleichbedeutend mit einem unannehmbaren Ungleichgewicht der Kräfte und einer beschränkten Nutzung der Ressourcen.

Vor allem jedoch würde sich dadurch die Zahl derjenigen, die effektiv an Aktivitäten jeglicher Art teilnehmen können, erheblich reduzieren: Damit würden wertvolle Beiträge von vornherein ausgeschlossen, und es entstünde Unzufriedenheit. Ein solcher Ansatz würde zudem im Laufe der Zeit seltener gesprochene Sprachen ins Abseits drängen, ihren Anwendungsbereich noch weiter einengen und unausweichlich den Reichtum und die Vielfalt unserer Kultur beschneiden. Das würde sich nicht nur nachteilig auf unsere nationale, regionale und kulturelle Identität auswirken, sondern auch auf unser Gefühl der Zugehörigkeit zu einer wirklich europäischen Gesellschaft, die ihren Minderheiten nicht nur bestenfalls Toleranz entgegenbringt, sondern sie in Anerkennung ihrer Werte aktiv unterstützt.

Ein derart restriktiver Ansatz für den Gebrauch von Sprache würde auch die Nutzung einer breiten Palette wichtiger neuer Dienste und Hilfen einschränken, denn dadurch würde vielen Menschen der Zugang zu Computersystemen in ihrer Muttersprache verwehrt.

In einer vielsprachigen Welt läß sich die natürliche Vielsprachigkeit Europas zu unserem wirtschaftliche Vorteil nutzen. Da wir eine engere Zusammenarbeit und einen Ausbau des Binnenmarkts anstreben, haben wir ein ganz besonderes Interesse daran, Lösungen für Probleme zu entwickeln, die sich aus einem mehrsprachigen Markt ergeben. Wenn Sprach-Engineering unsere eigenen sprachlichen Bedürfnisse, insbesondere in Wirtschaft, Verwaltung und Bildung befriedigen kann, dann wird es uns auch helfen, auf dem globalen Markt zu konkurrieren: Durch ihre Erfahrung mit Technologien, die auf einen vielsprachigen Markt abgestellt sind, werden Europas Unternehmen einen Wettbewerbsvorteil haben. Zudem wird Europa über Sprachprodukte verfügen, die es an die übrige Welt verkaufen kann.

Das Konzept des lebenslangen Lernens wird wohl zu den Wesensmerkmalen der Informationsgesellschaft gehören. Auch werden Führungskräfte künftig sicherlich in der Lage sein müssen, sich in mehr als einer Sprache zu verständigen. Sprach-Engineering wird einen maßgeblichen Beitrag zur Entwicklung von Selbstlernprogrammen leisten: Dabei wird es nicht nur das Erlernen von Fremdsprachen erleichtern, sondern auch dazu beitragen daß die entwickelten Systeme besser auf die Bedürfnisse des Lernenden zugeschnitten sind.

Sprachfähige Produkte werden die Leistungsfähigkeit in Wirtschaft und Verwaltung ebenso wie im Privatbereich verbessern. Produkte, in deren Entwicklung die Sprachtechnologie eingeflossen ist, werden unsere Systeme revolutionieren und das Dienstleistungsangebot für Unternehmen, Behörden und breite Öffentlichkeit bereichern.

Wenn der Computer Sprache erkennt, versteht und generiert, wird der Dialog zwischen Mensch und Maschine effizienter und bekommt eine menschlichere Note. Wenn Maschinen natürliche Sprache verstehen können, können sie genauer und sensibler auf unseren Informationsbedarf eingehen und uns so helfen, die Informationsflut besser zu bewältigen.

Maschinengestützte Übersetzung und fremdsprachliche Textgenerierung tragen nicht nur zur Verbesserung unserer Geschäftsverbindungen innerhalb Europas bei, sondern erschließen uns auch verstärkt den Zugang zu Drittmärkten.


Die Sprache nutzen

Unsere Fähigkeit, den Gebrauch von Sprache weiterzuentwickeln, ist der Schlüssel zur mehrsprachigen Informationsgesellschaft, der europäischen Gesellschaft von morgen. Neuentwicklungen im Bereich Sprach-Engineering versetzen uns in die Lage:


Techniken und Ressourcen

Was ist Sprach-Engineering ?

Sprach-Engineering ist die Anwendung der Kenntnisse von Sprache auf die Entwicklung von Computersystemen, die menschliche Sprache in all ihren Formen erkennen, verstehen, auslegen und generieren können. In der Praxis umfaßt Sprach-Engineering eine Reihe von Techniken und Sprachressourcen: Die Techniken werden in der Computersoftware implementiert, die Sprachressourcen bilden einen Wissensfundus, auf den man mit Hilfe der Computersoftware zugreifen kann.


Komponenten der Technik

Die dem Sprach-Engineering zugrunde liegenden Prozesse sind in dem Schaubild auf der nächsten Seite dargestellt. Dabei geht es im wesentlichen um folgendes:

Modell eines sprachbasierten Systems

Modell eines sprachbasierten Systems

Im Rahmen dieses allgemeinen Musters sind natürlich die unterschiedlichsten Konfigurationen denkbar. Je nachdem, um welche technologische Anwendung es sich handelt, sind nicht alle der genannten Komponenten erforderlich.


Techniken

Beim Sprach-Engineering kommen viele Techniken zum Einsatz, von denen einige im folgenden näher beschrieben werden.


Sprechererkennung und -verifizierung

Eine menschliche Stimme ist ebenso einmalig wie ein Fingerabdruck. Damit wird es möglich, einen Sprecher zu identifizieren und auf dieser Grundlage zu überprüfen, ob die Person eine Zugangsberechtigung zu einem Dienst oder einer Ressource besitzt. Die Probleme, die es hierbei zu bewältigen gilt, sind unterschiedlicher Art: Erkennen, daß die Sprache nicht aufgezeichnet ist, Heraushören der Stimme bei Hintergrundgeräuschen (in der Umgebung oder im Übertragungsmedium), zuverlässige Stimmerkennung trotz vorübergehender stimmlicher Veränderungen (z. B. infolge von Krankheit) usw.


Spracherkennung

Die Laute der gesprochenen Sprache werden vom Computer in Form von Analogwellen erfaßt; diese werden dann analysiert, um die Lautelemente (die sog. Phoneme) zu erkennen, aus denen die Wörter bestehen. Eine Eingabe in Form von einzelnen Spracheinheiten oder von kontinuierlich gesprochener Sprache wird anhand von statistischen Phonem- und Wortmodellen erkannt. Zur Erstellung statistischer Modelle hoher Qualität werden umfangreiche Übungsproben (Korpora) benötigt, und deshalb wurden und werden in erheblichem Umfang Sprachproben zusammengetragen.

Wenn Sprache zu einem gemeinhin eingesetzten Medium für die Computerarbeit werden soll, sind einige Probleme von erheblichem Ausmaß zu bewältigen. Das erste Problem dieser Art betrifft die Fähigkeit, kontinuierlich gesprochene Sprache zu erkennen anstelle einer Sprache, die vom Sprecher bewußt in Form von aneinandergereihten, durch eine Pause getrennten einzelnen Wörtern gesprochen wird. Ein weiteres Problem bezieht sich auf das Erkennen eines beliebigen Sprechers, damit das System nicht erst lernen muß, die Sprache ganz bestimmter Personen zu erkennen. Ein drittes, schwerwiegendes Problem erstreckt sich auf die Hintergrundgeräusche, die die Spracherkennung beeinträchtigen und entweder aus der Umgebung stammen, in der der Sprecher das System nutzt, oder durch das Übertragungsmedium, also beispielsweise die Telefonleitung, übertragen werden. Lärmreduzierung, Signalverstärkung und Erkennung von einzelnen Schlüsselwörtern sind Möglichkeiten, um in Umgebungen mit hohem Geräuschpegel oder beim Einsatz von Telekommunikationsnetzen Sprache präzise und zuverlässig zu erkennen. Und schließlich wirft auch der Umgang mit Akzenten, Dialekten und Umgangssprache, welche häufig von den Regeln der Grammatik abweicht, Probleme auf.


Buchstaben- und Formaterkennung

Die Erkennung von Sprache in geschriebener oder gedruckter Form setzt voraus, daß von der räumlichen Darstellung der Sprache in Form von graphischen Zeichen eine symbolische Darstellung abgeleitet wird. Für die meisten Sprachen bedeutet dies, daß Zeichen erkannt und umgewandelt werden. Es gibt zwei Möglichkeiten der Zeichenerkennung:

OCR kann bei nur einer Schriftartenfamilie einen hohen Grad an Präzision erzielen. Probleme entstehen dann, wenn die Schriftart unbekannt, verschnörkelt oder von minderwertiger Qualität ist. In solchen schwierigen Fällen, wie auch bei Handschriften, lassen sich gute Ergebnisse nur mit Hilfe von ICR erzielen. Hierfür bedarf es verschiedener Worterkennungstechniken, denen Sprachmodelle wie z. B. Wörterbücher oder statistische Daten über Wortfolgen zugrunde liegen.

Die Format-Analyse ist eng mit der Zeichenerkennung verbunden, setzt jedoch eine Analyse des Dokuments voraus, um zunächst dessen Aufbau in bezug auf graphische Darstellungen, Fotos, Trennung von Zeilen und Text und anschließend die Textstruktur zu bestimmen, um Überschriften, Untertitel, Bildunterschriften usw. zu ermitteln und damit eine effiziente Textverarbeitung vornehmen zu können.


Verstehen natürlicher Sprache

Es wird deutlich, daß das Verstehen von Sprache für viele Anwendungen von grundlegender Bedeutung ist. Ein vollkommenes Verständnis ist jedoch nicht immer nötig. Ein Teilverständnis ist häufig ist ein wichtiger erster Schritt, denn damit wird es erst möglich, den Verständnisgrad in angemessener Weise selbst festzulegen und auszubauen.

Eine oberflächliche oder Teilanalyse ermöglicht eine effiziente erste Einordnung freier Texte. Anschließend kann man sich auf "interessante" Textpassagen konzentrieren, die dann einer gründlicheren semantischen Analyse unterzogen werden, bei der der Inhalt des Textes innerhalb eines abgesteckten Gebietes bestimmt wird. Die Erstanalyse kann aber auch in Verbindung mit statistischen und sprachwissenschaftlichen Kenntnissen dazu genutzt werden, linguistische Merkmale unbekannter Wörter automatisch zu ermitteln, welche dann in das Systemwissen integriert werden.

Man verwendet semantische Modelle, um die Bedeutung von Sprache als Begriffe und begriffliche Zusammenhänge darzustellen. So kann ein semantisches Modell beispielsweise verwendet werden, um eine Informationsanforderung einer zugrunde liegenden Bedeutung zuzuordnen, die von der für die Abfrage tatsächlich benutzten Terminologie oder Sprache unabhängig ist. Damit wird der mehrsprachige Informationszugang unterstützt, ohne daß man die eigentliche Terminologie oder Strukturierung kennen muß, die der Indexierung der Information zugrunde liegt.

Texte können anhand von Kombinationen aus Analyse und Generierung mit Hilfe eines semantischen Modells übersetzt werden. Anwendungen, die hierzu in der Lage sind, können beim derzeitigen Entwicklungsstand nur mit bestimmten Wörtern und Begriffen arbeiten, damit sich geeignete LE-Ressourcen einsetzen lassen. Zur Generierung eines qualitativ hochwertigen Textes können Schablonen für die Dokumentstruktur sowie Textbausteine mit veränderlichen Teilen herangezogen werden.


Textgenerierung

Eine semantische Darstellung eines Textes kann die Grundlage für die Sprachgenerierung bilden. Eine Auslegung der Basisdaten oder der einem Satz oder einer Phrase zugrunde liegenden Bedeutung kann auf ganz bestimmte Weise einem Textwort zugeordnet werden, und zwar entweder in einer ausgewählten Sprache oder gemäß den stilistischen Vorgaben eines Textplanungssystems.


Generierung gesprochener Sprache

Sprache wird anhand von gefüllten Schablonen generiert; hierzu werden Aufzeichnungen "aus der Konserve" oder verkettete Spracheinheiten (Phoneme, Wörter) zusammen abgespielt. Generierte Sprache muß bestimmten Aspekten Rechnung tragen, wie z. B. Intensität, Dauer und Betonung, damit eine kontinuierliche und natürliche Antwort produziert werden kann.

Ein Dialog entsteht dadurch, daß Spracherkennung und einfache Sprachgenerierung miteinander kombiniert werden, und zwar entweder durch eine Verkettung von Komponenten gespeicherter menschlicher Sprache oder durch synthetische Erzeugung von Sprache anhand bestimmter Regeln.

Wenn man also Module für Spracherkennung und -generierung in einer Bibliothek zusammenstellt und diese mit einem graphischen Werkzeug zur Anwendungsstrukturierung kombiniert, ist auch jemand, der weder ein Sprachexperte noch ein Programmierer ist, in der Lage, einen strukturierten Dialog zu entwickeln, der zum Beispiel bei der maschinellen Bearbeitung von Telefonanrufen verwendet werden kann.


Sprachressourcen

Sprachressourcen, eine bedeutende Form der Darstellung sprachlichen Wissens, sind wesentlicher Bestandteil des Sprach-Engineering. Sie werden bei der Sprachanalyse herangezogen, die zu Erkennung und Verständnis führt.

Die Erstellung und Pflege von Sprachressourcen ist mit einem gewaltigen Arbeitsaufwand verbunden. Ressourcen werden nach standardisierten Formaten und Protokollen erzeugt, um Forschungslabors und öffentlichen Einrichtungen den Zugang in vielen EU-Sprachen zu ermöglichen. Viele dieser Ressourcen werden über die European Language Resources Association (ELRA)1 bereitgestellt.


Wörterbücher

Ein Wörterbuch oder Lexikon ist eine Zusammenstellung von Wörtern und des damit verbundenen Wissens. Dieses Wissen kann auch Einzelheiten beinhalten: über die grammatische Struktur eines jeden Wortes (Morphologie), über die Lautstruktur (Phonologie), die Bedeutung des Wortes in unterschiedlichen Textzusammenhängen, z. B. je nachdem, welches Wort oder Satzzeichen diesem Wort vorangeht oder folgt. Ein nützliches Lexikon umfaßt u. U. Hunderttausende von Einträgen. Lexika werden für jede Anwendungssprache benötigt.


Fachwörterbücher

Neben den allgemeinsprachlichen Lexika gibt es Fachwörterbücher, die für bestimmte Bereiche speziell zusammengestellt werden:

Eigennamen: Wörterbücher der Eigennamen sind für ein echtes Sprachverständnis unerläß, zumindest um Eigennamen in ihrem jeweiligen Kontext als Ortsnamen, Gegenstände, Personen oder vielleicht auch Tiere erkennen zu können. Besonders wichtig sind sie jedoch bei zahlreichen Anwendungen, bei denen der Name eine Schlüsselrolle spielt, wie z. B. bei einem Navigationssystem mit Spracheingabe, einem Reisebuchungssystem oder einem Informationssystem zur Fahrplanauskunft der Bahn auf der Grundlage automatischer Anrufbearbeitung.

Fachbegriffe: In der komplexen technologieorientierten Welt von heute muß eine Unmenge von Fachbegriffen aufgezeichnet, strukturiert und für sprachunterstützte Anwendungen bereitgestellt werden. Viele der kostengünstigsten LE-Anwendungen, wie z. B. mehrsprachige Verwaltung technischer Dokumente und maschinelle Übersetzung, setzen geeignete Terminologiedatenbanken voraus.

Wordnets: Ein Wordnet (Wortschatz nach Sachgruppen) beschreibt die Zusammenhänge zwischen Wörtern: Synonyme, Antonyme, Sammelbegriffe und so fort. Diese können sich für Informationsretrieval, Übersetzerarbeitsplätze und intelligente Büroautomatisierungshilfen für die Dokumenterstellung als außerordentlich wertvoll erweisen.


Grammatiken

Eine Grammatik beschreibt die Struktur einer Sprache auf verschiedenen Ebenen: Wort (morphologische Grammatik), Phrase, Satz usw. Eine Grammatik kann die Struktur sowohl hinsichtlich der Oberfläche (Syntax) als auch der Bedeutung (Semantik und Diskurs) beleuchten.


Korpora

Ein Korpus ist eine Sammlung geschriebener oder gesprochener Sprache, die die Grundlage darstellt für:

Es gibt landesspezifische Korpora, die aus Hunderten Millionen von Wörtern bestehen, aber auch solche, die für spezielle Zwecke erstellt werden. So könnte ein Korpus beispielsweise Äußerungen von Autofahrern umfassen, die mit einem simulierten Steuerungssystem sprechen, das gesprochene Befehle erkennt; das Korpus könnte dann herangezogen werden, um die Nutzeranforderungen an ein marktfähiges Steuerungssystem mit Spracheingabe festzulegen.


Die Entwicklungs- und Anwendungskette

In dem nebenstehenden Schaubild ist die Kette der Aktivitäten dargestellt, die für Sprach-Engineering erforderlich sind, beginnend mit der Forschung bis hin zur Auslieferung von sprachfähigen und sprachunterstützten Produkten und Dienstleistungen an die Endverbraucher. Aus dem Forschungs- und Entwicklungsprozeß gehen Techniken, Ressourcen und Normen hervor. Sie sind die wichtigsten Bausteine.

Sprach-Engineering im Modell

Sprach-Engineering im Modell

In der Praxis wird Sprach-Engineering auf zwei Ebenen eingesetzt. Die erste Ebene umfaßt eine Reihe von allgemein einsatzfähigen Anwendungen, z. B.:

Auf der zweiten Ebene werden diese Basisanwendungen zur Lösung konkreter Probleme im Wirtschaft und Gesellschaft genutzt:

Im allgemeinen wird die Fähigkeit zum Umgang mit Sprache in Systeme eingebettet, um ihre Leistungsfähigkeit zu steigern. Sprach-Engineering ist eine 'allgemein einsatzfähige Technologie'.


Auswirkung des Sprach-Engineering

Sprachtechnologien finden Anwendung auf ein breites Spektrum von Problemen in Wirtschaft und Verwaltung und können bessere, effizientere Lösungen herbeiführen. Sie lassen sich aber auch im Bildungswesen, zugunsten von Behinderten oder aber mit dem Ziel einsetzen, Unternehmen und Verbrauchern neuartige Dienstleistungen anzubieten. In vielen Bereichen ist ihre Auswirkung erheblich:


Globaler Wettbewerb

Der geschäftliche Erfolg hängt zunehmend von der Wettbewerbsfähigkeit auf einem globalen Markt ab. Der Schlüssel hierzu ist die Fähigkeit, Märkte zu erschließen, dort effizient zu agieren und Kundendienst in einer Qualität anzubieten, wie sie der Verbraucher erwartet. Die Anwendung von Sprach-Engineering kann in vielen Bereichen die Effektivität steigern und die Kosten senken. Solche Anwendungen sind beispielsweise:


Bessere Information

Ein Schlüsselmerkmal von Informationsdiensten ist ihre Fähigkeit, gezielt Information anzubieten, die genau den unmittelbaren Kundenanforderungen entspricht. Es reicht nicht aus, Information zu liefern, die nur in etwa dem Gewünschten nahekommt, so daß der Kunde gezwungen ist, das Material zu sichten und das, was er verwerten kann, herauszufiltern. Gleichermaßen darf die Art der Informationsauswahl nicht dazu führen, daß Information in erheblichem Umfang ausgelassen wird, denn sonst sind die Ergebnisse bestenfalls unangemessen, schlimmstenfalls völlig irreführend.

Information ist weltweit verfügbar, zum Beispiel auf dem World Wide Web, und das in unterschiedlichen Sprachen. In der Praxis jedoch steht sie nur demjenigen zur Verfügung, der in der Lage ist, die Information zunächst in der Sprache anzufordern, in der sie erfaßt wurde, und dann die Sprache zu verstehen, in der sie dargestellt ist. Dank maschineller Übersetzungshilfen können Informationssuchende heute eine Informationsanforderung in ihrer Muttersprache formulieren und die Information in derselben Sprache entgegennehmen, ungeachtet der Sprache, in der die Information erfaßt wurde.

Mit Hilfe von Sprach-Engineering läß sich die Qualität von Informationsdiensten verbessern. Dabei kommen Techniken zum Einsatz, die nicht nur genauere Ergebnisse bei Suchanforderungen liefern, sondern auch die Wahrscheinlichkeit, alle relevanten Informationen aufzufinden, ganz erheblich erhöhen. Die Nutzung von Techniken wie begriffsorientierte Suche, d.h. die Nutzung einer semantischen Analyse der Suchkriterien und Abgleich dieser Suchkriterien mit einer semantischen Analyse der Datenbank, bringt viel bessere Ergebnisse als das einfache Suchen mit Schlüsselwörtern.

Einer der größ, unmittelbaren Vorteile, die die Informationsgesellschaft den Bürgern bietet, ist die verbesserte Information des öffentlichen Sektors. Ob die entsprechenden Informationen jedoch für die breite Öffentlichkeit im großen Maßstab zugänglich sein werden, hängt vom Sprach-Engineering ab. Wer nicht mit der herkömmlichen Benutzerschnittstelle eines Rechnersystems vertraut ist, hat die Möglichkeit, Informationen mit Hilfe gesprochener Sprache anzufordern: Das System zeigt ihm dann die verschiedenen Möglichkeiten auf. Fremdsprachliche Informationen über andere Länder können Interessenten heute aber auch in ihrer Muttersprache bekommen. Ein gutes Beispiel hierfür: Derzeit wird ein Dienst entwickelt, der EU-weit Auskünfte über Stellenangebote in der Muttersprache potentieller Bewerber bereithält. Selbstverständlich geht es dabei um Arbeitsplätze, für die Sprachkenntnisse eher unerheblich sind. Der Dienst wird über das Internet angeboten; außerdem ist geplant, öffentliche Telefonzellen einzurichten, die Stellensuchenden die Nutzung des Dienstes ermöglichen. Bei einem einsprachigen Pilotdienst in Flandern kamen nicht weniger als 26% der Bewerbungen von Arbeitsuchenden, die die Stellenausschreibung im Internet entdeckt hatten.

Sprach-Engineering wird in vielen Bereichen zum Einsatz kommen, die von öffentlichem Interesse sind. Ein erwähnenswertes Beispiel ist das Zusammentragen von Informationen durch Strafverfolgungsbehörden. Wird beispielsweise ein Fall von Schmuggel aufgedeckt, so verfügen öffentliche oder kommerzielle Informationsquellen über große Datenmengen, die, wenn richtig zusammengestellt und präsentiert, sachdienliche Hinweise geben können. Einzelheiten über Verschiffungen, Ladelisten und Firmeninfos können ungewöhnliche Tätigkeitsprofile zutage treten lassen. Bei der Erstellung solcher Profile ist die Fähigkeit zur Durchführung sprachbasierter Analysen eine große Hilfe.


Direkter Zugang zu Diensten

In den letzten Jahren hat sich die Nutzung des Telefons zur Bereitstellung von Dienstleistungen, wie z. B. für Bankgeschäfte, die Klärung versicherungsrechtlicher Fragen und Help-Desk-Funktionen, explosionsartig entwickelt. Der Vorteil dieser Art von Dienstleistung für den Kunden liegt in der schnellen Reaktionsgeschwindigkeit, und das "rund um die Uhr". Es ist kostengünstig für den Anbieter im Einzelhandel, da zum Betreiben des Geschäfts keine Mietkosten für teure Geschäftsräume anfallen. Mit Hilfe der Sprecher- und Spracherkennungstechniken lassen sich viele Dienste automatisieren. Der Anruf des Kunden kann über ein Computersystem abgewickelt werden, das in der Lage ist, einen sinnvollen Dialog mit dem Anrufer zu führen und die Dienstleistung zur Zufriedenheit des Kunden zu erbringen. Das vielleicht augenfälligste Beispiel derzeit ist die Automatisierung von Dienstleistungen im Rahmen des Telefonbanking, die heute bereits von vielen Banken angeboten werden. Der Kunde, der sich telefonisch mit dem Dienst in Verbindung setzt, wird mit einem Computer verbunden, der zunächst die stimmlichen Merkmale des Kunden analysiert, um die Stimme zu identifizieren und die Zugangsberechtigung des Kunden zu überprüfen. Anschließend findet ein Dialog zwischen Kunde und Computer statt, um die gewünschten Dienste zu erbringen und die erforderlichen Transaktionen abzuwickeln, z. B. Bezahlen einer Rechnung, Auskunft über den Kontostand usw.. Weitere Beispiele sind: Reservierung von Theaterkarten, Buchung von Eisenbahn-, Schiffs- oder Flugreisen oder Teleshopping über Kabelfernsehen.

Wenn Dienste automatisiert werden, damit sie "rund um die Uhr" verfügbar sind, dann ist das wirtschaftlich von Vorteil. Ein weiterer Vorteil ist, daß niemand mehr so lange und zu unzumutbaren Zeiten arbeiten muß, um den notwendigen Service zu gewährleisten. Die Dienste werden künftig wohl beständiger, schneller und zuverlässiger funktionieren. Wenn zudem jede Transaktion automatisch protokolliert wird, können alle Beteiligten darauf vertrauen, daß alles ordnungsgemäß abläuft.


Elektronischer Geschäftsverkehr

Viele Geschäftsvorgänge, wie z. B. Auftragserteilung, Fakturierung und Übermittlung von Zahlungsanweisungen an eine Bank, lassen sich ohne menschliches Zutun abwickeln, u. a. mit Hilfe von EDI, der Technik für den elektronischen Datenaustausch. Zur Zeit jedoch werden die meisten Geschäftstransaktionen durch einen Dialog zwischen Menschen eingeleitet: per Telefon, schriftlich oder in einem persönlichen Gespräch. Mit dem größ Angebot an Telematikdiensten und der vermehrten Nutzung des Internet und des World Wide Web haben auch die Möglichkeiten zur Automatisierung weiterer Geschäftstätigkeiten zugenommen (siehe Schaubild). Sprachfähige Software wird eine maßgebliche Rolle dabei spielen, die Automatisierung benutzerfreundlicher und effizienter zu gestalten.

Geschäftszyklus

Geschäftszyklus

Einer der Vorteile des World Wide Web für den Nutzer liegt darin begründet, daß die Information in natürlicher Sprache angeboten wird. Um das Web nach Information zu durchsuchen und diese auszuwählen, muß das entsprechende Computerprogramm (software agent) jedoch über die notwendige Intelligenz verfügen, um die vorhandenen Informationen zu verstehen und mit den Anforderungen des Nutzers abgleichen zu können. Sprach-Engineering kann einen wesentlichen Beitrag zur Entwicklung sogenannter "intelligenter Agenten" leisten, die den Verbrauchern einen benutzerfreundlichen Zugriff auf die Möglichkeiten des elektronischen Geschäftsverkehrs bieten. Der Nutzer könnte einen solchen Agenten durch Spracheingabe anweisen, das Web oder einen ähnlichen Dienst zu durchsuchen, Kataloge zu lesen und die geeigneten Produkte auszuwählen, Preise abzufragen und auszuhandeln oder auch bei einer elektronischen Versteigerung mitzubieten. Nach Sichtung der Ergebnisse würde er seinen Agenten anweisen, eine Bestellung aufzugeben und nach erfolgter Lieferung die Bank mit der Begleichung der elektronischen Rechnung zu beauftragen. Die komplexen Vorgänge, die den geschäftlichen Transaktionen zugrunde liegen, liefen ohne Zutun des Nutzers ab, denn darum kümmert sich sein Agent.

Auch der Kundendienst ist ein Bereich, der sich mit Hilfe von Hypertext-basierten Help Desks, die mit zusätzlichen sprachfähigen Hilfen ausgestattet sind, verbessern läß. Die Vorteile, die sich hier aus einer Automatisierung ergeben, sind enorm: Kostensenkungen im gesamten Geschäftszyklus, eine größ Auswahl an Anbietern, ein reichhaltigeres Produktangebot und damit mehr Anreiz für eine wettbewerbsorientierte Preisgestaltung. Sämtliche Vorgänge laufen schneller und effizienter ab, und auch alle weiteren Prozesse können mit größ Genauigkeit abgewickelt werden, wenn die relevanten Daten zuvor protokolliert wurden.

Mit der Zeit wird der elektronische Geschäftsverkehr die Wirtschaft verändern. Der Bedarf an Zwischenhändlern wird zurückgehen. Neue und kleine Unternehmen werden in der Lage sein, ihre Produkte und Dienstleistungen schnell, effizient und ohne großen Kostenaufwand weltweit zu präsentieren. Ohne Sprachkompetenz können die neuen Möglichkeiten jedoch nicht voll ausgeschöpft werden.


Effiziente Kommunikation

Kommunikation ist wahrscheinlich der Bereich, in dem Sprache am ehesten eingesetzt wird. Andererseits ist Sprache auch am ehesten ein Kommunikationshindernis. Zwischen Kulturen und Nationen kommt es immer wieder zu Problemen, nicht nur deshalb, weil eine exakte Übersetzung von einer Sprache in die andere schwierig ist, sondern weil Wörter und Phrasen in den einzelnen Kulturen unterschiedliche Konnotationen haben. Ein typisches Beispiel im europäischen Kontext ist das Wort "föderalistisch": Für jemanden, der in einem Bundesstaat lebt, steht der Begriff für eine Regierungsform, bei der Hoheitsrechte auf Teilstaaten übertragen werden; jemand, der in einem souveränen Einheitsstaat lebt, denkt dagegen vermutlich eher an die Einführung einer zusätzlichen zentralen Verwaltungsebene, die aus der Ferne staatliche Gewalt ausübt.

Wenn durch die Nutzung unseres Wissens in Form von elektronischen Wörterbüchern, Thesauri und anderen Sprachressourcen Übersetzern die Arbeit erleichtert wird, wenn schließlich maschinelle Übersetzung hoher Qualität Wirklichkeit wird, dann werden auch die Hindernisse, von denen zuvor die Rede war, allmählich abgebaut. Es wird möglich sein, politische oder geschäftliche Vereinbarungen besser, schneller und in vielen Sprachen abzufassen. Die Arbeit auf internationaler Ebene wird effizienter sein, und es kann ein viel größ Personenkreis eingebunden werden. Ein Beispiel für ein Projekt, das erfolgreich zur Verbesserung der Kommunikation in Europa beiträgt, ist die Vernetzung einer Vielzahl von Polizeidienststellen im Norden Europas. Dabei wird einer begrenzter, kontrollierter Wortschatz benutzt, so daß eine automatische Übersetzung in Echtzeit möglich ist. Ein derartiges System leistet nicht nur bei der Verhütung und Aufklärung länderübergreifender Straftaten wertvolle Hilfe, sondern unterstützt auch Notdienste, wenn sie bei Katastrophen wirksam Informationen austauschen müssen.


Zugang und Nutzung

Die nachhaltigste Wirkung wird Sprach-Engineering dort haben, wo menschliche Sprache, vor allem gesprochene Sprache, als Schnittstelle zur Maschine gebraucht wird, denn es erhöht die Einsatzmöglichkeiten von Systemen und Diensten. Sprach-Engineering stellt außerdem sicher, daß die Dienste nicht nur für Computererfahrene, sondern auch für ganz gewöhnliche Bürger ohne spezielle Schulung zugänglich sind. Diese Zugänglichkeit ist für eine demokratische, offene und gerechte Gesellschaft im Informationszeitalter von elementarer Bedeutung.

Ein automatischer Rechtsberatungsdienst ist gutes Beispiel für die Art von Diensten, die verfügbar sein werden. In vielen Ländern wird der Zugang zur Rechtspflege allmählich für fast alle Bürger zu einem ernsten Problem, denn außer den Reichen und denjenigen, die Anspruch auf Prozeßkostenhilfe haben, macht kaum jemand seine gesetzlichen Ansprüche geltend, da die Kosten einer juristischen Fachberatung und eines Gerichtsverfahrens exorbitant sind. Künftig wird es mit Hilfe der Sprachtechnik möglich sein, sachverständige Rechtsberatung anzubieten, denn das entsprechende Expertensystem kann nicht nur das Problem und die einschlägigen Rechtsvorschriften analysieren, es versteht auch die Beschreibung des Problems in natürlicher Sprache und kann aufgrund dieses Verständnisses in Wort oder Schrift beraten, wie es ein Rechtsanwalt tun würde. Ein solcher Dienst könnte beispielsweise über Kioske in Gerichtsgebäuden oder Postämtern angeboten werden. Mit einer entsprechenden Anwendung könnte man die Bürger auch über ihre Sozialversicherungsansprüche und über Stellenangebote informieren oder eine nutzbare, verständliche Schnittstelle schaffen, die den Umgang mit Ämtern und Behörden erleichtert.

Systeme, die in der Lage sind, interaktiv über menschliche Sprache zu kommunizieren, und die entweder für die Allgemeinheit zugänglich sind oder von zu Hause aus über das Telefonnetz oder per Fernsehleitung genutzt werden können, können unsere Demokratie ihrem Wesen nach verändern. Dadurch daß erheblich mehr Informationen in verständlicher und 'objektiver' Form verfügbar und sehr breit angelegte Meinungsumfragen realisierbar sein werden, wird eine verstärkte Beteiligung des Bürgers am Entscheidungsprozeß möglich sein. Vielen Menschen mit Behinderungen kann durch die Anwendung von Sprachtechnologie geholfen werden. Computer, die Sprache verstehen, zuhören, sehen und sprechen können, eröffnen neue Chancen zur Nutzung von Dienstleistungen von zu Hause aus und zur Integration in die Arbeitswelt.


Verbessertes Bildungsangebot

Fernstudium ist zu einem wichtigen Bestandteil des Bildungsangebots geworden. Es ist von besonderer Bedeutung für das Konzept des "lebensbegleitenden Lernens", das zu einem wichtigen Charakteristikum des Lebens im Informationszeitalter werden dürfte. Die Effektivität des Fern- und des Selbststudiums kann durch Telematik-Dienste und computergestütztes Lernen gesteigert werden. Qualität und Erfolg des computergestützten Lernens lassen sich mit Hilfe der Techniken des Sprach-Engineering erheblich verbessern. Wenn ein computergestütztes Lernprogramm die Antworten des Nutzers auf die Fragen verstehen und nicht nur bloß erkennen kann, ob die Antwort richtig oder falsch war, dann kann es den Nutzer auf Lernpfade führen, die seinen Bedürfnissen besser gerecht werden. Auf diese Weise lernen Schüler und Studenten wesentlich effizienter und können sich länger konzentrieren, da sich mit einem solchermaßen anwenderfreundlichen Programm sehr viel leichter arbeiten läß.

Künftig wird es in Europa in vielen Lebensbereichen von maßgeblicher Bedeutung sein, mehr als nur eine Sprache zu beherrschen. Selbstverständlich ist der computergestützte Spracherwerb (CALL) ein sehr wichtiger Anwendungsbereich des Sprach-Engineering. Dieselben Kenntnisse, die für die Verständnisfähigkeit der Maschine ausschlaggebend sind, bilden auch die Grundlage für den interaktiven Unterricht, bei dem die Fehler der Schüler genau festgestellt und richtiger Sprachgebrauch vermittelt werden müssen. Durch neue, wirksamere Lernhilfen zu Hause und am Arbeitsplatz werden die Möglichkeiten, unsere Kenntnisse zu erweitern und neue Fertigkeiten zu erlangen, erheblich verbessert.


Unterhaltung, Freizeit und Kreativität

Die Anziehungskraft, die Computerspiele auf Kinder ausüben, macht deutlich, wie der Computer unsere Kultur verändern kann. Zum einen kann Unterhaltung zu Hause einen stärkeren Bildungseffekt erzielen, zum anderen die Bildung attraktiver gestaltet werden. Hierfür wurde der Begriff 'Edutainment' (aus dem englischen education und entertainment) geprägt. Virtuelle Museen, Kunstgalerien, Bibliotheken usw. werden große Teile der Bevölkerung in die Lage versetzen, Kultur zu erfahren, ohne daß sie dafür die eigenen vier Wänden verlassen müssen. Die Nutzung solcher virtuellen Kulturarchive wird durch Sprachtechniken vereinfacht: Sie erleichtern die Suche nach digital erfaßten Texten und ihre Auswahl, die Indexierung und Abfrage von Bildern, das Synchronisieren von Filmen und die automatische Erzeugung von Untertiteln sowie die Bereitstellung von Übersetzungen von Bibliotheks- und Archivmaterial.

Für breitere Kreise der Bevölkerung wird das Schreiben eine sehr viel attraktivere Tätigkeit sein. Hilfsmittel für die Erstellung von Texten werden es ihnen ermöglichen, bessere Ergebnisse zu erzielen. Mit der Nutzung von elektronischen Wörterbüchern und Thesauri zum Beispiel ist es viel einfacher, das treffende Wort zu finden; auch eine Prüfung der Grammatik ist möglich. So verhilft die Sprachtechnik demjenigen, der sich in seiner privaten oder geschäftlichen Korrespondenz griffig und prägnant ausdrücken möchte, zu überaus zufriedenstellenden Ergebnissen, auch wenn er kein Naturtalent ist oder keine entsprechende Ausbildung genossen hat.


Vorteile

Die Vorteile erfolgreichen Sprach-Engineerings sind enorm:


Glossar

Begriff   Definition: [a] - Akronym; [adj] - Adjektiv; [n] - Nomen;[p] - Phrase; [v] - Verb
Abstract [n] s. Inhaltsangabe
Begriffsorientierte Suche [p] Wird im Zusammenhang mit Informationsretrieval verwendet; es bedeutet, daß die Suche mit Hilfe einer semantischen Analyse des Suchfilters erfolgt, die dann mit der semantischen Analyse der Datenbank abgeglichen wird
Benutzermodellierung [n] Normalerweise eine Komponente der dialogrelevanten Spracherkennung, die versucht, sensibel auf die unterschiedlichsten Systemnutzer einzugehen
Bereich [n] Steht normalerweise für den Anwendungsbereich der sprachfähigen Software, z. B. Bankwesen, Versicherungswesen und Reisebranche; im Rahmen des Sprach-Engineering bedeutet der Begriff, daß der Wortschatz einer Anwendung begrenzt wird, so daß die Anforderungen an die Sprachressourcen durch Eingrenzung des Anwendungsbereichs tatsächlich auch eingegrenzt sind
CALL [a] Computergestützter Spracherwerb
Computerlinguistik [n] Ein Bereich der angewandten Linguistik, der sich mit der Verarbeitung natürlicher Sprache durch Computer beschäftigt
Dialog [n] Die interaktive sprachliche Kommunikation zwischen zwei Menschen, zwischen Mensch und Maschine oder zwischen zwei Maschinen
Diskurs [n] Eine Abfolge einer sprachlichen Äußerung, die mehr als einen Satz umfaßt
Diskursanalyse [n] Analyse zur Ermittlung der sprachlichen Abhängigkeiten zwischen Sätzen
Eigenname [n] siehe Fachwörterbücher
Formalismus [n] Eine Möglichkeit zur Darstellung der Regeln, die der Erstellung eines Modells von sprachwissenschaftlichen Kenntnissen zugrunde liegen
Formaterkennung [n] siehe Buchstaben- und Formaterkennung
generieren [v] Erzeugung von Sprache in einer bestimmten Form, ausgehend von einer anderen Form von Sprache oder Information; s. auch Sprachgenerierung und Generierung natürlicher Sprache (siehe Generierung gesprochener Sprache.
Generierung natürlicher Sprache [p] siehe Textgenerierung.
Globalisierung [n] Gestaltung von Software für den Einsatz in einer beliebigen Sprache und einem beliebigen kulturellen Umfeld; dies geschieht, indem sie entweder von Anfang an mit Blick auf die universelle Einsatzfähigkeit konzipiert wird oder indem bereits bestehende Software durch Funktionen erweitert wird, die deren spätere Lokalisierung (s. unten) erleichtern
Grammatik [n] siehe Grammatiken.
Grammatikprüfprogramm [n] Software, die den Text auf grammatikalische Richtigkeit überprüft
grammatische Analyse [p] Analyse von Sprache zur Ermittlung ihrer Struktur und Zusammenhänge auf syntaktischer und/oder semantischer Ebene
Hidden Markov Model [p] Ein endlicher Automat, bei dem nicht nur Übergänge, sondern auch der Output auf Wahrscheinlichkeitsberechnungen beruhen; wird normalerweise für Spracherkennungssysteme verwendet, um die Wörter zu bestimmen, die durch die Formen der erfaßten Schallwellen dargestellt werden
Hypertext [n] Ein System, das gewöhnlich für Hilfedateien und im World Wide Web eingesetzt wird, wobei anhand von hervorgehobenem Text eine Verknüpfung (im Sinne eines Index) zu einem damit verbundenen Text (häufig eine genauere Erläuterung der hervorgehobenen Textstelle) hergestellt wird
indexieren [v] In kurzer, prägnanter Form einen sprachlichen Ausdruck einer Bezugseinheit zuordnen; bei textbezogener Information kann die Indexierung auf Schlüsselwörtern oder Begriffen basieren
Informationsextraktion [n] Prozeß des Auswählens von Information aus einer Datenbank mit Hilfe von Indizes auf der Grundlage der Suche mit Schlüsselwörtern, Semantik und/oder Begriffen
Informationsretrieval [n] Wird normalerweise als allgemeiner Begriff verwendet und bezieht sich auf den Zugang zu Information aus natürlichsprachlichen Datenbanken und ihre Lieferung mittels verschiedenster Methoden
Inhaltsangabe [n] Kurze, prägnante Beschreibung eines Dokuments, die den Inhalt voll und ganz erfaßt
Interlingua [n] Eine Kunstsprache, die zur einheitlichen formalen Darstellung verwendet werden kann, in die die natürliche Ausgangssprache übersetzt und aus der die natürliche Zielsprache generiert werden kann
kontinuierlich gesprochene Sprache [p] Gesprochene Sprache, bei der der Sprecher nicht durch Einfügen von Pausen zwischen den Wörtern auf den Zuhörer (zum Beispiel ein Spracherkennungssystem) eingeht
kontrollierte Sprache [p] Sprache mit begrenztem Wortschatz, um die Zahl der verwendeten Wörter und die verwendete Sprachstruktur einzuschränken und dadurch die Sprachverarbeitung zu erleichtern; kontrollierte Sprache wird vor allem dort angewandt, wo es auf präzisen sprachlichen Ausdruck und auf hohe Reaktionsgeschwindigkeit ankommt, z. B. bei der Polizei, beim Katastrophenschutz, in der Luftfahrt und bei der Flugsicherung
Korpus [n] siehe Korpora (Plural: Korpora).
lemmatisieren [v] Ein unflektiertes Wort in seinen Stamm (Grundform) und seine Endungsformen zerlegen
Lexikon [n] siehe Wörterbücher.
Lokalisierung [n] Anpassung von Software an lokale sprachliche und kulturelle Gegebenheiten (was auch die Rechtspraxis und geschäftliche Gepflogenheiten einschließt)
mark up [v] Einen Text mit Anmerkungen versehen, damit Struktur und Darstellung des Textes so definiert werden, daß die Struktur von einem anderen Softwaresystem als demjenigen, welches für seine Erstellung herangezogen wurde, reproduziert werden kann
maschinelle Übersetzung [p] Prozeß des automatischen Übersetzens aus einer Sprache in eine andere durch einen Computer
maschinengestützte Übersetzung [p] Prozeß, bei dem ein menschlicher Übersetzer bei der Übertragung eines Textes von einer Sprache in eine andere durch Software-Tools unterstützt wird
maschinenlesbares Wörterbuch [p] Ein Wörterbuch (s. unten), das von einer Computersoftware gelesen werden kann
Mehrdeutigkeit [n] Ein Zustand, in dem ein Wort oder Satz auf unterschiedliche Art und Weise verstanden werden kann: das Wort, weil es mehrere Bedeutungen hat, und der Satz, weil sich die Satzstruktur so analysieren läß, daß dem Satz mehr als nur eine Bedeutung verliehen werden kann
mehrsprachig [adj] Bedeutet im eigentlichen Sinne, daß etwas in einer sprachunabhängigen Form vorliegt; wird aber häufig verwendet, um auszudrücken, daß etwas in mehreren Sprachen vorliegt
Morphem [n] Die kleinste bedeutungstragende Einheit einer Sprache
Morphologie [n] Die Lehre von der Gestalt der Wörter und ihrer Gestaltveränderung
OCR [a] s. optische Zeichenerkennung
Onomastik [n] Wissenschaftliche Erforschung von Eigennamen (siehe Fachwörterbücher.
optische Zeichenerkennung [p] siehe Buchstaben- und Formaterkennung.
partielle Satzanalyse [p] Sprachliche Analyse, bis ein elementarer Verständnisgrad erzielt werden kann; die entsprechende Software wird häufig eingesetzt, um Textpassagen zu ermitteln, die anschließend gründlicher analysiert werden können, um den jeweiligen Zielvorgaben gerecht zu werden
Phonem [n] Kleinste Lauteinheit (analog zu Morphem), die aus einem akustischen Sprachfluß ermittelt wird und sich semantisch klar abhebt
Rechtschreibprüfprogramm [n] Software, die die Rechtschreibung von Wörtern überprüft
Semantik [n] Sprachanalyse zur Ermittlung der Bedeutung
Silbe [n] Ausspracheeinheit, die aus mehr als einem Laut besteht (s. Phonem oben) und kleiner als ein Wort ist
Sprach-Engineering [p] Die Anwendung der Kenntnis von Sprache auf die Entwicklung von Computersystemen, die alle Formen menschlicher Sprache erkennen, verstehen, auslegen und generieren können
Sprache - Text [p] Prozeß des Analysierens gesprochener Sprache und des Erzeugens der textlichen Entsprechung; ein typisches Beispiel für eine Sprache-Text-Anwendung sind Diktiersysteme
Spracherkennung [p] siehe Spracherkennung.
sprachfähig/sprachunterstützt [adj] Beschreibt eine Computeranwendung, die hinsichtlich ihrer Funktionalität, Leistung und/oder Darstellung mit Hilfe von Sprach-Engineering verbessert wurde
Sprachgenerierung [n] siehe Generierung gesprochener Sprache.
sprachliche Äußerung [p] Lautfolge, die ein Sprecher zwischen zwei Sprechpausen erzeugt
Sprachressource [n] siehe Sprachressourcen.
Sprechererkennung [n] siehe Spracherkennung.
sprecherunabhängig [adj] Beschreibt ein Spracherkennungssystem, das in der Lage ist, Sprache unabhängig vom Sprecher zu erkennen, d. h. es muß nicht trainiert werden, um einzelne Sprecher zu erkennen
Sprecherverifizierung [n] siehe Sprechererkennung und -verifizierung.
Stilprüfprogramm [n] Software, die ein Dokument überprüft, um sicherzustellen, daß dieses mit einer Schablone übereinstimmt, die die Struktur des Textes und das entsprechende Dokument definiert; ferner Überprüfung des Gebrauchs von Phrasen oder Sätzen nach einer vorab definierten Vorgehensweise
Stimmerkennung [n] Spracherkennung
Syntax [n] Regelwerk, das beschreibt, wie Sätze aus sprachlichen Grundelementen, d. h. aus Morphemen, Wörtern und Teilen gesprochener Sprache, gebildet werden
tag [v] Einen Korpus kommentieren, indem die Wörter mit Informationen versehen werden, die den grammatischen Zusammenhang von Wörtern und/oder Verbindungen mit anderen Wörtern beschreiben
Terminologie [n] siehe Fachwörterbücher.
Text [n] Wird häufig verwendet, um geschriebene, gedruckte oder symbolisch (anhand von Zeichenkodierung) erfaßte Sprache von gesprochener Sprache zu unterscheiden
text alignment [p] Prozeß des Parallelisierens verschiedener Sprachversionen eines Textes, um bedeutungsgleiche Begriffe, Phrasen oder Ausdrücke ermitteln zu können
Text - Sprache [p] Prozeß des Erzeugens gesprochener Sprache, die bedeutungsgleich mit einem Text ist; ein typisches Beispiel für eine Text-Sprache-Anwendung ist ein automatisches Ansagesystem auf Flughäfen oder Bahnhöfen
Thesaurus [n] Ein Synonym-Wörterbuch
Texterstellungstool [n] Hilfen, die zusammen mit der Textverarbeitung angeboten werden, um den Verfasser von Dokumenten zu unterstützen; dazu gehören typischerweise Online-Wörterbuch und Thesaurus, Software zur Überprüfung von Rechtschreibung, Grammatik und Stil sowie Hilfsmittel zur Gliederung, Integration und Verknüpfung von Dokumenten
übersetzen [v] Übertragen eines Textes aus einer Sprache in eine andere
Übersetzerarbeitsplatz [n] Ein Softwaresystem, das eine Arbeitsumgebung für einen menschlichen Übersetzer bereitstellt, die eine Reihe von Hilfen anbietet, wie z. B. Online-Wörterbücher, Thesauri, Übersetzungsspeicher usw.
Übersetzungsspeicher [n] Ein System, das Übersetzungswissen zusammenträgt, indem frühere Übersetzungen gespeichert und nachgenutzt werden
Verarbeitung natürlicher Sprache [p] Ein Begriff, der seit den 80er Jahren zur Definition einer Kategorie von Softwaresystemen verwendet wird, die Text intelligent bearbeiten
Version [n] Ausgabe eines Dokuments, die sich von der vorangehenden unterscheidet und als solche erfaßt ist
Versionskontrolle [n] Verwaltung der Erstellung, Erfassung und Ausgabe eines Dokuments
Wizard of Oz Test [p] Test, bei dem die automatische Maschinenkomponente durch menschliche Intervention in beliebiger Form ersetzt wird, allerdings so, daß der am Test teilnehmende Nutzer sich des Austauschs nicht bewußt wird
Wordnet [n] siehe Fachwörterbücher.
Wörterbuch [n] Ein Verzeichnis von Wörtern mit einer Beschreibung eines jeden Wortes, die in der Regel nur die Bedeutung und eventuell die Etymologie des Wortes umfaßt
Zeichenerkennung [n] siehe Buchstaben- und Formaterkennung.
zusammenfassen [v] Eine prägnante Dokumentbeschreibung erstellen, die sich auf den gesamten Inhalt des Dokuments erstreckt