Sprach-Engineering
|
![]() |
DE EN ES FR IT |
Der Gebrauch von Sprache stöß normalerweise an Grenzen. Im allgemeinen wird Sprache nur für die unmittelbare Kommunikation zwischen Menschen und nicht für die Kommunikation mit Systemen, Diensten und Geräten eingesetzt, die wir tagaus, tagein benutzen. Sogar zwischen den Menschen selbst ist das Verständnis in aller Regel auf Gruppen beschränkt, die eine gemeinsame Sprache sprechen. In dieser Hinsicht kann Sprache nicht nur eine Verständigungshilfe, sondern bisweilen auch ein Kommunikationshindernis sein.
Wir erleben einen Wandel, der die Art, wie wir Sprache nutzen, revolutioniert und den Wert der Sprache in allen Bereichen der Kommunikation steigert. Dieser Wandel geht auf Entwicklungen auf dem Gebiet der Sprachdatenverarbeitung zurück, die man heute als Sprach-Engineering (im Englischen: Language Engineering, LE) bezeichnet.
Sprach-Engineering zeigt uns neue Wege auf, die Nutzung der Sprache zu erweitern und zu verbessern und dadurch Sprache als effizientes Werkzeug einzusetzen. Sprach-Engineering beruht auf umfassender Kenntnis von Sprache und ihrer Funktionsweise. Dieses Wissen wurde durch Forschung erworben. Sprach-Engineering macht sich Sprachressourcen, wie z. B. elektronische Wörterbücher und Grammatiken, Terminologiedatenbanken und Korpora, zunutze, die im Laufe der Zeit entwickelt wurden. Die Forschung klärt uns darüber auf, was wir über Sprache wissen müssen, und entwickelt die Techniken, die wir brauchen, um Sprache verstehen und damit umgehen zu können. Die Ressourcen stellen die Wissensgrundlage dar, die für die Erkennung und Validierung, für das Verständnis und den Umgang mit Sprache unter Ausnutzung der Leistungsfähigkeit von Computern erforderlich ist. Durch Umsetzung unserer Kenntnis von Sprache in die Praxis können wir neue Wege erschließen, um Lösungsansätze für politische, soziale und wirtschaftliche Probleme zu entwickeln.
Sprach-Engineering ist eine Technik, die durch Einsatz unserer Kenntnis von Sprache zu einer besseren Nutzung von Computersystemen beiträgt:
Wenn wir unsere sich stets weiterentwickelnde Kenntnis von Sprache nutzen, werden wir viele Dinge anders, einfacher und wirkungsvoller handhaben können als bisher.
Wenn eine Maschine über die tastaturgestützte Dateneingabe hinaus auch natürliche Sprache in geschriebener und gesprochener Form in einer Vielzahl von Sprachen erkennen kann, dann werden wir alle ein reichhaltiges Angebot an Informations- und Kommunikationsdiensten sowie die Möglichkeiten zur telefonischen oder elektronischen Abwicklung geschäftlicher Transaktionen besser nutzen können.
Wenn eine Maschine menschliche Sprache versteht, zwischen verschiedenen Sprachen hin- und herübersetzen und als Output sowohl gesprochene als auch geschriebene Sprache generieren kann, dann wird uns das in vielen Bereichen unseres Lebens enorm weiterhelfen.
Wenn eine Maschine uns schnell zu einem besseren gegenseitigen Verstehen verhelfen kann, können wir auf wirtschaftlicher und staatlicher Ebene effizienter zusammenarbeiten und zusammenwirken.
Der Erfolg von Sprach-Engineering hängt von der Verwirklichung all dieser Ziele ab. Einige sind bereits heute realisiert, auch wenn noch Verbesserungsbedarf besteht. Das Rad des Fortschritts dreht sich immer schneller, und die kommenden Jahre werden viele neue Entwicklungen bringen.
Die Muttersprache ist Träger unserer nationalen und kulturellen Identität, denn sie knüpft das Band zu unseren Traditionen und bildet die Grundlage für unsere Bildung und unsere Unterhaltung.
Die sprachliche und kulturelle Vielfalt Europas bietet uns die Chance, viel über unsere jeweilige Kultur und Lebensart voneinander zu lernen. Das ist und bleibt eines der Fundamente für den Zusammenhalt in Europa. Soll die mehrsprachige Gesellschaft auch künftig den europäischen Lebensstil prägen, müssen wir neue Wege finden, um die Hindernisse zu überwinden, die Kommunikation und Verständigung im Wege stehen.
Bisweilen ist zu hören, es sei durchaus möglich, auf internationaler Ebene im Geschäftsverkehr, in Verwaltung und Politik mit nur ein oder zwei Sprachen auszukommen. Dies ist bis zu einem gewissen Grad richtig. Es kann jedoch niemals voll und ganz zufriedenstellend sein. Die Dominanz einiger weniger Sprachen wäre gleichbedeutend mit einem unannehmbaren Ungleichgewicht der Kräfte und einer beschränkten Nutzung der Ressourcen.
Vor allem jedoch würde sich dadurch die Zahl derjenigen, die effektiv an Aktivitäten jeglicher Art teilnehmen können, erheblich reduzieren: Damit würden wertvolle Beiträge von vornherein ausgeschlossen, und es entstünde Unzufriedenheit. Ein solcher Ansatz würde zudem im Laufe der Zeit seltener gesprochene Sprachen ins Abseits drängen, ihren Anwendungsbereich noch weiter einengen und unausweichlich den Reichtum und die Vielfalt unserer Kultur beschneiden. Das würde sich nicht nur nachteilig auf unsere nationale, regionale und kulturelle Identität auswirken, sondern auch auf unser Gefühl der Zugehörigkeit zu einer wirklich europäischen Gesellschaft, die ihren Minderheiten nicht nur bestenfalls Toleranz entgegenbringt, sondern sie in Anerkennung ihrer Werte aktiv unterstützt.
Ein derart restriktiver Ansatz für den Gebrauch von Sprache würde auch die Nutzung einer breiten Palette wichtiger neuer Dienste und Hilfen einschränken, denn dadurch würde vielen Menschen der Zugang zu Computersystemen in ihrer Muttersprache verwehrt.
In einer vielsprachigen Welt läß sich die natürliche Vielsprachigkeit Europas zu unserem wirtschaftliche Vorteil nutzen. Da wir eine engere Zusammenarbeit und einen Ausbau des Binnenmarkts anstreben, haben wir ein ganz besonderes Interesse daran, Lösungen für Probleme zu entwickeln, die sich aus einem mehrsprachigen Markt ergeben. Wenn Sprach-Engineering unsere eigenen sprachlichen Bedürfnisse, insbesondere in Wirtschaft, Verwaltung und Bildung befriedigen kann, dann wird es uns auch helfen, auf dem globalen Markt zu konkurrieren: Durch ihre Erfahrung mit Technologien, die auf einen vielsprachigen Markt abgestellt sind, werden Europas Unternehmen einen Wettbewerbsvorteil haben. Zudem wird Europa über Sprachprodukte verfügen, die es an die übrige Welt verkaufen kann.
Das Konzept des lebenslangen Lernens wird wohl zu den Wesensmerkmalen der Informationsgesellschaft gehören. Auch werden Führungskräfte künftig sicherlich in der Lage sein müssen, sich in mehr als einer Sprache zu verständigen. Sprach-Engineering wird einen maßgeblichen Beitrag zur Entwicklung von Selbstlernprogrammen leisten: Dabei wird es nicht nur das Erlernen von Fremdsprachen erleichtern, sondern auch dazu beitragen daß die entwickelten Systeme besser auf die Bedürfnisse des Lernenden zugeschnitten sind.
Sprachfähige Produkte werden die Leistungsfähigkeit in Wirtschaft und Verwaltung ebenso wie im Privatbereich verbessern. Produkte, in deren Entwicklung die Sprachtechnologie eingeflossen ist, werden unsere Systeme revolutionieren und das Dienstleistungsangebot für Unternehmen, Behörden und breite Öffentlichkeit bereichern.
Wenn der Computer Sprache erkennt, versteht und generiert, wird der Dialog zwischen Mensch und Maschine effizienter und bekommt eine menschlichere Note. Wenn Maschinen natürliche Sprache verstehen können, können sie genauer und sensibler auf unseren Informationsbedarf eingehen und uns so helfen, die Informationsflut besser zu bewältigen.
Maschinengestützte Übersetzung und fremdsprachliche Textgenerierung tragen nicht nur zur Verbesserung unserer Geschäftsverbindungen innerhalb Europas bei, sondern erschließen uns auch verstärkt den Zugang zu Drittmärkten.
Modell eines sprachbasierten Systems
Im Rahmen dieses allgemeinen Musters sind natürlich die unterschiedlichsten Konfigurationen denkbar. Je nachdem, um welche technologische Anwendung es sich handelt, sind nicht alle der genannten Komponenten erforderlich.
Wenn Sprache zu einem gemeinhin eingesetzten Medium für die Computerarbeit werden soll, sind einige Probleme von erheblichem Ausmaß zu bewältigen. Das erste Problem dieser Art betrifft die Fähigkeit, kontinuierlich gesprochene Sprache zu erkennen anstelle einer Sprache, die vom Sprecher bewußt in Form von aneinandergereihten, durch eine Pause getrennten einzelnen Wörtern gesprochen wird. Ein weiteres Problem bezieht sich auf das Erkennen eines beliebigen Sprechers, damit das System nicht erst lernen muß, die Sprache ganz bestimmter Personen zu erkennen. Ein drittes, schwerwiegendes Problem erstreckt sich auf die Hintergrundgeräusche, die die Spracherkennung beeinträchtigen und entweder aus der Umgebung stammen, in der der Sprecher das System nutzt, oder durch das Übertragungsmedium, also beispielsweise die Telefonleitung, übertragen werden. Lärmreduzierung, Signalverstärkung und Erkennung von einzelnen Schlüsselwörtern sind Möglichkeiten, um in Umgebungen mit hohem Geräuschpegel oder beim Einsatz von Telekommunikationsnetzen Sprache präzise und zuverlässig zu erkennen. Und schließlich wirft auch der Umgang mit Akzenten, Dialekten und Umgangssprache, welche häufig von den Regeln der Grammatik abweicht, Probleme auf.
OCR kann bei nur einer Schriftartenfamilie einen hohen Grad an Präzision erzielen. Probleme entstehen dann, wenn die Schriftart unbekannt, verschnörkelt oder von minderwertiger Qualität ist. In solchen schwierigen Fällen, wie auch bei Handschriften, lassen sich gute Ergebnisse nur mit Hilfe von ICR erzielen. Hierfür bedarf es verschiedener Worterkennungstechniken, denen Sprachmodelle wie z. B. Wörterbücher oder statistische Daten über Wortfolgen zugrunde liegen.
Die Format-Analyse ist eng mit der Zeichenerkennung verbunden, setzt jedoch eine Analyse des Dokuments voraus, um zunächst dessen Aufbau in bezug auf graphische Darstellungen, Fotos, Trennung von Zeilen und Text und anschließend die Textstruktur zu bestimmen, um Überschriften, Untertitel, Bildunterschriften usw. zu ermitteln und damit eine effiziente Textverarbeitung vornehmen zu können.
Eine oberflächliche oder Teilanalyse ermöglicht eine effiziente erste Einordnung freier Texte. Anschließend kann man sich auf "interessante" Textpassagen konzentrieren, die dann einer gründlicheren semantischen Analyse unterzogen werden, bei der der Inhalt des Textes innerhalb eines abgesteckten Gebietes bestimmt wird. Die Erstanalyse kann aber auch in Verbindung mit statistischen und sprachwissenschaftlichen Kenntnissen dazu genutzt werden, linguistische Merkmale unbekannter Wörter automatisch zu ermitteln, welche dann in das Systemwissen integriert werden.
Man verwendet semantische Modelle, um die Bedeutung von Sprache als Begriffe und begriffliche Zusammenhänge darzustellen. So kann ein semantisches Modell beispielsweise verwendet werden, um eine Informationsanforderung einer zugrunde liegenden Bedeutung zuzuordnen, die von der für die Abfrage tatsächlich benutzten Terminologie oder Sprache unabhängig ist. Damit wird der mehrsprachige Informationszugang unterstützt, ohne daß man die eigentliche Terminologie oder Strukturierung kennen muß, die der Indexierung der Information zugrunde liegt.
Texte können anhand von Kombinationen aus Analyse und Generierung mit Hilfe eines semantischen Modells übersetzt werden. Anwendungen, die hierzu in der Lage sind, können beim derzeitigen Entwicklungsstand nur mit bestimmten Wörtern und Begriffen arbeiten, damit sich geeignete LE-Ressourcen einsetzen lassen. Zur Generierung eines qualitativ hochwertigen Textes können Schablonen für die Dokumentstruktur sowie Textbausteine mit veränderlichen Teilen herangezogen werden.
Ein Dialog entsteht dadurch, daß Spracherkennung und einfache Sprachgenerierung miteinander kombiniert werden, und zwar entweder durch eine Verkettung von Komponenten gespeicherter menschlicher Sprache oder durch synthetische Erzeugung von Sprache anhand bestimmter Regeln.
Wenn man also Module für Spracherkennung und -generierung in einer Bibliothek zusammenstellt und diese mit einem graphischen Werkzeug zur Anwendungsstrukturierung kombiniert, ist auch jemand, der weder ein Sprachexperte noch ein Programmierer ist, in der Lage, einen strukturierten Dialog zu entwickeln, der zum Beispiel bei der maschinellen Bearbeitung von Telefonanrufen verwendet werden kann.
Die Erstellung und Pflege von Sprachressourcen ist mit einem gewaltigen Arbeitsaufwand verbunden. Ressourcen werden nach standardisierten Formaten und Protokollen erzeugt, um Forschungslabors und öffentlichen Einrichtungen den Zugang in vielen EU-Sprachen zu ermöglichen. Viele dieser Ressourcen werden über die European Language Resources Association (ELRA)1 bereitgestellt.
Eigennamen: Wörterbücher der Eigennamen sind für ein echtes Sprachverständnis unerläß, zumindest um Eigennamen in ihrem jeweiligen Kontext als Ortsnamen, Gegenstände, Personen oder vielleicht auch Tiere erkennen zu können. Besonders wichtig sind sie jedoch bei zahlreichen Anwendungen, bei denen der Name eine Schlüsselrolle spielt, wie z. B. bei einem Navigationssystem mit Spracheingabe, einem Reisebuchungssystem oder einem Informationssystem zur Fahrplanauskunft der Bahn auf der Grundlage automatischer Anrufbearbeitung.
Fachbegriffe: In der komplexen technologieorientierten Welt von heute muß eine Unmenge von Fachbegriffen aufgezeichnet, strukturiert und für sprachunterstützte Anwendungen bereitgestellt werden. Viele der kostengünstigsten LE-Anwendungen, wie z. B. mehrsprachige Verwaltung technischer Dokumente und maschinelle Übersetzung, setzen geeignete Terminologiedatenbanken voraus.
Wordnets: Ein Wordnet (Wortschatz nach Sachgruppen) beschreibt die Zusammenhänge zwischen Wörtern: Synonyme, Antonyme, Sammelbegriffe und so fort. Diese können sich für Informationsretrieval, Übersetzerarbeitsplätze und intelligente Büroautomatisierungshilfen für die Dokumenterstellung als außerordentlich wertvoll erweisen.
Es gibt landesspezifische Korpora, die aus Hunderten Millionen von Wörtern bestehen, aber auch solche, die für spezielle Zwecke erstellt werden. So könnte ein Korpus beispielsweise Äußerungen von Autofahrern umfassen, die mit einem simulierten Steuerungssystem sprechen, das gesprochene Befehle erkennt; das Korpus könnte dann herangezogen werden, um die Nutzeranforderungen an ein marktfähiges Steuerungssystem mit Spracheingabe festzulegen.
Sprach-Engineering im Modell
In der Praxis wird Sprach-Engineering auf zwei Ebenen eingesetzt. Die erste Ebene umfaßt eine Reihe von allgemein einsatzfähigen Anwendungen, z. B.:
Auf der zweiten Ebene werden diese Basisanwendungen zur Lösung konkreter Probleme im Wirtschaft und Gesellschaft genutzt:
Im allgemeinen wird die Fähigkeit zum Umgang mit Sprache in Systeme eingebettet, um ihre Leistungsfähigkeit zu steigern. Sprach-Engineering ist eine 'allgemein einsatzfähige Technologie'.
Information ist weltweit verfügbar, zum Beispiel auf dem World Wide Web, und das in unterschiedlichen Sprachen. In der Praxis jedoch steht sie nur demjenigen zur Verfügung, der in der Lage ist, die Information zunächst in der Sprache anzufordern, in der sie erfaßt wurde, und dann die Sprache zu verstehen, in der sie dargestellt ist. Dank maschineller Übersetzungshilfen können Informationssuchende heute eine Informationsanforderung in ihrer Muttersprache formulieren und die Information in derselben Sprache entgegennehmen, ungeachtet der Sprache, in der die Information erfaßt wurde.
Mit Hilfe von Sprach-Engineering läß sich die Qualität von Informationsdiensten verbessern. Dabei kommen Techniken zum Einsatz, die nicht nur genauere Ergebnisse bei Suchanforderungen liefern, sondern auch die Wahrscheinlichkeit, alle relevanten Informationen aufzufinden, ganz erheblich erhöhen. Die Nutzung von Techniken wie begriffsorientierte Suche, d.h. die Nutzung einer semantischen Analyse der Suchkriterien und Abgleich dieser Suchkriterien mit einer semantischen Analyse der Datenbank, bringt viel bessere Ergebnisse als das einfache Suchen mit Schlüsselwörtern.
Einer der größ, unmittelbaren Vorteile, die die Informationsgesellschaft den Bürgern bietet, ist die verbesserte Information des öffentlichen Sektors. Ob die entsprechenden Informationen jedoch für die breite Öffentlichkeit im großen Maßstab zugänglich sein werden, hängt vom Sprach-Engineering ab. Wer nicht mit der herkömmlichen Benutzerschnittstelle eines Rechnersystems vertraut ist, hat die Möglichkeit, Informationen mit Hilfe gesprochener Sprache anzufordern: Das System zeigt ihm dann die verschiedenen Möglichkeiten auf. Fremdsprachliche Informationen über andere Länder können Interessenten heute aber auch in ihrer Muttersprache bekommen. Ein gutes Beispiel hierfür: Derzeit wird ein Dienst entwickelt, der EU-weit Auskünfte über Stellenangebote in der Muttersprache potentieller Bewerber bereithält. Selbstverständlich geht es dabei um Arbeitsplätze, für die Sprachkenntnisse eher unerheblich sind. Der Dienst wird über das Internet angeboten; außerdem ist geplant, öffentliche Telefonzellen einzurichten, die Stellensuchenden die Nutzung des Dienstes ermöglichen. Bei einem einsprachigen Pilotdienst in Flandern kamen nicht weniger als 26% der Bewerbungen von Arbeitsuchenden, die die Stellenausschreibung im Internet entdeckt hatten.
Sprach-Engineering wird in vielen Bereichen zum Einsatz kommen, die von öffentlichem Interesse sind. Ein erwähnenswertes Beispiel ist das Zusammentragen von Informationen durch Strafverfolgungsbehörden. Wird beispielsweise ein Fall von Schmuggel aufgedeckt, so verfügen öffentliche oder kommerzielle Informationsquellen über große Datenmengen, die, wenn richtig zusammengestellt und präsentiert, sachdienliche Hinweise geben können. Einzelheiten über Verschiffungen, Ladelisten und Firmeninfos können ungewöhnliche Tätigkeitsprofile zutage treten lassen. Bei der Erstellung solcher Profile ist die Fähigkeit zur Durchführung sprachbasierter Analysen eine große Hilfe.
Wenn Dienste automatisiert werden, damit sie "rund um die Uhr" verfügbar sind, dann ist das wirtschaftlich von Vorteil. Ein weiterer Vorteil ist, daß niemand mehr so lange und zu unzumutbaren Zeiten arbeiten muß, um den notwendigen Service zu gewährleisten. Die Dienste werden künftig wohl beständiger, schneller und zuverlässiger funktionieren. Wenn zudem jede Transaktion automatisch protokolliert wird, können alle Beteiligten darauf vertrauen, daß alles ordnungsgemäß abläuft.
Geschäftszyklus
Einer der Vorteile des World Wide Web für den Nutzer liegt darin begründet, daß die Information in natürlicher Sprache angeboten wird. Um das Web nach Information zu durchsuchen und diese auszuwählen, muß das entsprechende Computerprogramm (software agent) jedoch über die notwendige Intelligenz verfügen, um die vorhandenen Informationen zu verstehen und mit den Anforderungen des Nutzers abgleichen zu können. Sprach-Engineering kann einen wesentlichen Beitrag zur Entwicklung sogenannter "intelligenter Agenten" leisten, die den Verbrauchern einen benutzerfreundlichen Zugriff auf die Möglichkeiten des elektronischen Geschäftsverkehrs bieten. Der Nutzer könnte einen solchen Agenten durch Spracheingabe anweisen, das Web oder einen ähnlichen Dienst zu durchsuchen, Kataloge zu lesen und die geeigneten Produkte auszuwählen, Preise abzufragen und auszuhandeln oder auch bei einer elektronischen Versteigerung mitzubieten. Nach Sichtung der Ergebnisse würde er seinen Agenten anweisen, eine Bestellung aufzugeben und nach erfolgter Lieferung die Bank mit der Begleichung der elektronischen Rechnung zu beauftragen. Die komplexen Vorgänge, die den geschäftlichen Transaktionen zugrunde liegen, liefen ohne Zutun des Nutzers ab, denn darum kümmert sich sein Agent.
Auch der Kundendienst ist ein Bereich, der sich mit Hilfe von Hypertext-basierten Help Desks, die mit zusätzlichen sprachfähigen Hilfen ausgestattet sind, verbessern läß. Die Vorteile, die sich hier aus einer Automatisierung ergeben, sind enorm: Kostensenkungen im gesamten Geschäftszyklus, eine größ Auswahl an Anbietern, ein reichhaltigeres Produktangebot und damit mehr Anreiz für eine wettbewerbsorientierte Preisgestaltung. Sämtliche Vorgänge laufen schneller und effizienter ab, und auch alle weiteren Prozesse können mit größ Genauigkeit abgewickelt werden, wenn die relevanten Daten zuvor protokolliert wurden.
Mit der Zeit wird der elektronische Geschäftsverkehr die Wirtschaft verändern. Der Bedarf an Zwischenhändlern wird zurückgehen. Neue und kleine Unternehmen werden in der Lage sein, ihre Produkte und Dienstleistungen schnell, effizient und ohne großen Kostenaufwand weltweit zu präsentieren. Ohne Sprachkompetenz können die neuen Möglichkeiten jedoch nicht voll ausgeschöpft werden.
Wenn durch die Nutzung unseres Wissens in Form von elektronischen Wörterbüchern, Thesauri und anderen Sprachressourcen Übersetzern die Arbeit erleichtert wird, wenn schließlich maschinelle Übersetzung hoher Qualität Wirklichkeit wird, dann werden auch die Hindernisse, von denen zuvor die Rede war, allmählich abgebaut. Es wird möglich sein, politische oder geschäftliche Vereinbarungen besser, schneller und in vielen Sprachen abzufassen. Die Arbeit auf internationaler Ebene wird effizienter sein, und es kann ein viel größ Personenkreis eingebunden werden. Ein Beispiel für ein Projekt, das erfolgreich zur Verbesserung der Kommunikation in Europa beiträgt, ist die Vernetzung einer Vielzahl von Polizeidienststellen im Norden Europas. Dabei wird einer begrenzter, kontrollierter Wortschatz benutzt, so daß eine automatische Übersetzung in Echtzeit möglich ist. Ein derartiges System leistet nicht nur bei der Verhütung und Aufklärung länderübergreifender Straftaten wertvolle Hilfe, sondern unterstützt auch Notdienste, wenn sie bei Katastrophen wirksam Informationen austauschen müssen.
Ein automatischer Rechtsberatungsdienst ist gutes Beispiel für die Art von Diensten, die verfügbar sein werden. In vielen Ländern wird der Zugang zur Rechtspflege allmählich für fast alle Bürger zu einem ernsten Problem, denn außer den Reichen und denjenigen, die Anspruch auf Prozeßkostenhilfe haben, macht kaum jemand seine gesetzlichen Ansprüche geltend, da die Kosten einer juristischen Fachberatung und eines Gerichtsverfahrens exorbitant sind. Künftig wird es mit Hilfe der Sprachtechnik möglich sein, sachverständige Rechtsberatung anzubieten, denn das entsprechende Expertensystem kann nicht nur das Problem und die einschlägigen Rechtsvorschriften analysieren, es versteht auch die Beschreibung des Problems in natürlicher Sprache und kann aufgrund dieses Verständnisses in Wort oder Schrift beraten, wie es ein Rechtsanwalt tun würde. Ein solcher Dienst könnte beispielsweise über Kioske in Gerichtsgebäuden oder Postämtern angeboten werden. Mit einer entsprechenden Anwendung könnte man die Bürger auch über ihre Sozialversicherungsansprüche und über Stellenangebote informieren oder eine nutzbare, verständliche Schnittstelle schaffen, die den Umgang mit Ämtern und Behörden erleichtert.
Systeme, die in der Lage sind, interaktiv über menschliche Sprache zu kommunizieren, und die entweder für die Allgemeinheit zugänglich sind oder von zu Hause aus über das Telefonnetz oder per Fernsehleitung genutzt werden können, können unsere Demokratie ihrem Wesen nach verändern. Dadurch daß erheblich mehr Informationen in verständlicher und 'objektiver' Form verfügbar und sehr breit angelegte Meinungsumfragen realisierbar sein werden, wird eine verstärkte Beteiligung des Bürgers am Entscheidungsprozeß möglich sein. Vielen Menschen mit Behinderungen kann durch die Anwendung von Sprachtechnologie geholfen werden. Computer, die Sprache verstehen, zuhören, sehen und sprechen können, eröffnen neue Chancen zur Nutzung von Dienstleistungen von zu Hause aus und zur Integration in die Arbeitswelt.
Künftig wird es in Europa in vielen Lebensbereichen von maßgeblicher Bedeutung sein, mehr als nur eine Sprache zu beherrschen. Selbstverständlich ist der computergestützte Spracherwerb (CALL) ein sehr wichtiger Anwendungsbereich des Sprach-Engineering. Dieselben Kenntnisse, die für die Verständnisfähigkeit der Maschine ausschlaggebend sind, bilden auch die Grundlage für den interaktiven Unterricht, bei dem die Fehler der Schüler genau festgestellt und richtiger Sprachgebrauch vermittelt werden müssen. Durch neue, wirksamere Lernhilfen zu Hause und am Arbeitsplatz werden die Möglichkeiten, unsere Kenntnisse zu erweitern und neue Fertigkeiten zu erlangen, erheblich verbessert.
Für breitere Kreise der Bevölkerung wird das Schreiben eine sehr viel attraktivere Tätigkeit sein. Hilfsmittel für die Erstellung von Texten werden es ihnen ermöglichen, bessere Ergebnisse zu erzielen. Mit der Nutzung von elektronischen Wörterbüchern und Thesauri zum Beispiel ist es viel einfacher, das treffende Wort zu finden; auch eine Prüfung der Grammatik ist möglich. So verhilft die Sprachtechnik demjenigen, der sich in seiner privaten oder geschäftlichen Korrespondenz griffig und prägnant ausdrücken möchte, zu überaus zufriedenstellenden Ergebnissen, auch wenn er kein Naturtalent ist oder keine entsprechende Ausbildung genossen hat.
Begriff | Definition: [a] - Akronym; [adj] - Adjektiv; [n] - Nomen;[p] - Phrase; [v] - Verb | |
---|---|---|
Abstract | [n] | s. Inhaltsangabe |
Begriffsorientierte Suche | [p] | Wird im Zusammenhang mit Informationsretrieval verwendet; es bedeutet, daß die Suche mit Hilfe einer semantischen Analyse des Suchfilters erfolgt, die dann mit der semantischen Analyse der Datenbank abgeglichen wird |
Benutzermodellierung | [n] | Normalerweise eine Komponente der dialogrelevanten Spracherkennung, die versucht, sensibel auf die unterschiedlichsten Systemnutzer einzugehen |
Bereich | [n] | Steht normalerweise für den Anwendungsbereich der sprachfähigen Software, z. B. Bankwesen, Versicherungswesen und Reisebranche; im Rahmen des Sprach-Engineering bedeutet der Begriff, daß der Wortschatz einer Anwendung begrenzt wird, so daß die Anforderungen an die Sprachressourcen durch Eingrenzung des Anwendungsbereichs tatsächlich auch eingegrenzt sind |
CALL | [a] | Computergestützter Spracherwerb |
Computerlinguistik | [n] | Ein Bereich der angewandten Linguistik, der sich mit der Verarbeitung natürlicher Sprache durch Computer beschäftigt |
Dialog | [n] | Die interaktive sprachliche Kommunikation zwischen zwei Menschen, zwischen Mensch und Maschine oder zwischen zwei Maschinen |
Diskurs | [n] | Eine Abfolge einer sprachlichen Äußerung, die mehr als einen Satz umfaßt |
Diskursanalyse | [n] | Analyse zur Ermittlung der sprachlichen Abhängigkeiten zwischen Sätzen |
Eigenname | [n] | siehe Fachwörterbücher |
Formalismus | [n] | Eine Möglichkeit zur Darstellung der Regeln, die der Erstellung eines Modells von sprachwissenschaftlichen Kenntnissen zugrunde liegen |
Formaterkennung | [n] | siehe Buchstaben- und Formaterkennung |
generieren | [v] | Erzeugung von Sprache in einer bestimmten Form, ausgehend von einer anderen Form von Sprache oder Information; s. auch Sprachgenerierung und Generierung natürlicher Sprache (siehe Generierung gesprochener Sprache. |
Generierung natürlicher Sprache | [p] | siehe Textgenerierung. |
Globalisierung | [n] | Gestaltung von Software für den Einsatz in einer beliebigen Sprache und einem beliebigen kulturellen Umfeld; dies geschieht, indem sie entweder von Anfang an mit Blick auf die universelle Einsatzfähigkeit konzipiert wird oder indem bereits bestehende Software durch Funktionen erweitert wird, die deren spätere Lokalisierung (s. unten) erleichtern |
Grammatik | [n] | siehe Grammatiken. |
Grammatikprüfprogramm | [n] | Software, die den Text auf grammatikalische Richtigkeit überprüft |
grammatische Analyse | [p] | Analyse von Sprache zur Ermittlung ihrer Struktur und Zusammenhänge auf syntaktischer und/oder semantischer Ebene |
Hidden Markov Model | [p] | Ein endlicher Automat, bei dem nicht nur Übergänge, sondern auch der Output auf Wahrscheinlichkeitsberechnungen beruhen; wird normalerweise für Spracherkennungssysteme verwendet, um die Wörter zu bestimmen, die durch die Formen der erfaßten Schallwellen dargestellt werden |
Hypertext | [n] | Ein System, das gewöhnlich für Hilfedateien und im World Wide Web eingesetzt wird, wobei anhand von hervorgehobenem Text eine Verknüpfung (im Sinne eines Index) zu einem damit verbundenen Text (häufig eine genauere Erläuterung der hervorgehobenen Textstelle) hergestellt wird |
indexieren | [v] | In kurzer, prägnanter Form einen sprachlichen Ausdruck einer Bezugseinheit zuordnen; bei textbezogener Information kann die Indexierung auf Schlüsselwörtern oder Begriffen basieren |
Informationsextraktion | [n] | Prozeß des Auswählens von Information aus einer Datenbank mit Hilfe von Indizes auf der Grundlage der Suche mit Schlüsselwörtern, Semantik und/oder Begriffen |
Informationsretrieval | [n] | Wird normalerweise als allgemeiner Begriff verwendet und bezieht sich auf den Zugang zu Information aus natürlichsprachlichen Datenbanken und ihre Lieferung mittels verschiedenster Methoden |
Inhaltsangabe | [n] | Kurze, prägnante Beschreibung eines Dokuments, die den Inhalt voll und ganz erfaßt |
Interlingua | [n] | Eine Kunstsprache, die zur einheitlichen formalen Darstellung verwendet werden kann, in die die natürliche Ausgangssprache übersetzt und aus der die natürliche Zielsprache generiert werden kann |
kontinuierlich gesprochene Sprache | [p] | Gesprochene Sprache, bei der der Sprecher nicht durch Einfügen von Pausen zwischen den Wörtern auf den Zuhörer (zum Beispiel ein Spracherkennungssystem) eingeht |
kontrollierte Sprache | [p] | Sprache mit begrenztem Wortschatz, um die Zahl der verwendeten Wörter und die verwendete Sprachstruktur einzuschränken und dadurch die Sprachverarbeitung zu erleichtern; kontrollierte Sprache wird vor allem dort angewandt, wo es auf präzisen sprachlichen Ausdruck und auf hohe Reaktionsgeschwindigkeit ankommt, z. B. bei der Polizei, beim Katastrophenschutz, in der Luftfahrt und bei der Flugsicherung |
Korpus | [n] | siehe Korpora (Plural: Korpora). |
lemmatisieren | [v] | Ein unflektiertes Wort in seinen Stamm (Grundform) und seine Endungsformen zerlegen |
Lexikon | [n] | siehe Wörterbücher. |
Lokalisierung | [n] | Anpassung von Software an lokale sprachliche und kulturelle Gegebenheiten (was auch die Rechtspraxis und geschäftliche Gepflogenheiten einschließt) |
mark up | [v] | Einen Text mit Anmerkungen versehen, damit Struktur und Darstellung des Textes so definiert werden, daß die Struktur von einem anderen Softwaresystem als demjenigen, welches für seine Erstellung herangezogen wurde, reproduziert werden kann |
maschinelle Übersetzung | [p] | Prozeß des automatischen Übersetzens aus einer Sprache in eine andere durch einen Computer |
maschinengestützte Übersetzung | [p] | Prozeß, bei dem ein menschlicher Übersetzer bei der Übertragung eines Textes von einer Sprache in eine andere durch Software-Tools unterstützt wird |
maschinenlesbares Wörterbuch | [p] | Ein Wörterbuch (s. unten), das von einer Computersoftware gelesen werden kann |
Mehrdeutigkeit | [n] | Ein Zustand, in dem ein Wort oder Satz auf unterschiedliche Art und Weise verstanden werden kann: das Wort, weil es mehrere Bedeutungen hat, und der Satz, weil sich die Satzstruktur so analysieren läß, daß dem Satz mehr als nur eine Bedeutung verliehen werden kann |
mehrsprachig | [adj] | Bedeutet im eigentlichen Sinne, daß etwas in einer sprachunabhängigen Form vorliegt; wird aber häufig verwendet, um auszudrücken, daß etwas in mehreren Sprachen vorliegt |
Morphem | [n] | Die kleinste bedeutungstragende Einheit einer Sprache |
Morphologie | [n] | Die Lehre von der Gestalt der Wörter und ihrer Gestaltveränderung |
OCR | [a] | s. optische Zeichenerkennung |
Onomastik | [n] | Wissenschaftliche Erforschung von Eigennamen (siehe Fachwörterbücher. |
optische Zeichenerkennung | [p] | siehe Buchstaben- und Formaterkennung. |
partielle Satzanalyse | [p] | Sprachliche Analyse, bis ein elementarer Verständnisgrad erzielt werden kann; die entsprechende Software wird häufig eingesetzt, um Textpassagen zu ermitteln, die anschließend gründlicher analysiert werden können, um den jeweiligen Zielvorgaben gerecht zu werden |
Phonem | [n] | Kleinste Lauteinheit (analog zu Morphem), die aus einem akustischen Sprachfluß ermittelt wird und sich semantisch klar abhebt |
Rechtschreibprüfprogramm | [n] | Software, die die Rechtschreibung von Wörtern überprüft |
Semantik | [n] | Sprachanalyse zur Ermittlung der Bedeutung |
Silbe | [n] | Ausspracheeinheit, die aus mehr als einem Laut besteht (s. Phonem oben) und kleiner als ein Wort ist |
Sprach-Engineering | [p] | Die Anwendung der Kenntnis von Sprache auf die Entwicklung von Computersystemen, die alle Formen menschlicher Sprache erkennen, verstehen, auslegen und generieren können |
Sprache - Text | [p] | Prozeß des Analysierens gesprochener Sprache und des Erzeugens der textlichen Entsprechung; ein typisches Beispiel für eine Sprache-Text-Anwendung sind Diktiersysteme |
Spracherkennung | [p] | siehe Spracherkennung. |
sprachfähig/sprachunterstützt | [adj] | Beschreibt eine Computeranwendung, die hinsichtlich ihrer Funktionalität, Leistung und/oder Darstellung mit Hilfe von Sprach-Engineering verbessert wurde |
Sprachgenerierung | [n] | siehe Generierung gesprochener Sprache. |
sprachliche Äußerung | [p] | Lautfolge, die ein Sprecher zwischen zwei Sprechpausen erzeugt |
Sprachressource | [n] | siehe Sprachressourcen. |
Sprechererkennung | [n] | siehe Spracherkennung. |
sprecherunabhängig | [adj] | Beschreibt ein Spracherkennungssystem, das in der Lage ist, Sprache unabhängig vom Sprecher zu erkennen, d. h. es muß nicht trainiert werden, um einzelne Sprecher zu erkennen |
Sprecherverifizierung | [n] | siehe Sprechererkennung und -verifizierung. |
Stilprüfprogramm | [n] | Software, die ein Dokument überprüft, um sicherzustellen, daß dieses mit einer Schablone übereinstimmt, die die Struktur des Textes und das entsprechende Dokument definiert; ferner Überprüfung des Gebrauchs von Phrasen oder Sätzen nach einer vorab definierten Vorgehensweise |
Stimmerkennung | [n] | Spracherkennung |
Syntax | [n] | Regelwerk, das beschreibt, wie Sätze aus sprachlichen Grundelementen, d. h. aus Morphemen, Wörtern und Teilen gesprochener Sprache, gebildet werden |
tag | [v] | Einen Korpus kommentieren, indem die Wörter mit Informationen versehen werden, die den grammatischen Zusammenhang von Wörtern und/oder Verbindungen mit anderen Wörtern beschreiben |
Terminologie | [n] | siehe Fachwörterbücher. |
Text | [n] | Wird häufig verwendet, um geschriebene, gedruckte oder symbolisch (anhand von Zeichenkodierung) erfaßte Sprache von gesprochener Sprache zu unterscheiden |
text alignment | [p] | Prozeß des Parallelisierens verschiedener Sprachversionen eines Textes, um bedeutungsgleiche Begriffe, Phrasen oder Ausdrücke ermitteln zu können |
Text - Sprache | [p] | Prozeß des Erzeugens gesprochener Sprache, die bedeutungsgleich mit einem Text ist; ein typisches Beispiel für eine Text-Sprache-Anwendung ist ein automatisches Ansagesystem auf Flughäfen oder Bahnhöfen |
Thesaurus | [n] | Ein Synonym-Wörterbuch |
Texterstellungstool | [n] | Hilfen, die zusammen mit der Textverarbeitung angeboten werden, um den Verfasser von Dokumenten zu unterstützen; dazu gehören typischerweise Online-Wörterbuch und Thesaurus, Software zur Überprüfung von Rechtschreibung, Grammatik und Stil sowie Hilfsmittel zur Gliederung, Integration und Verknüpfung von Dokumenten |
übersetzen | [v] | Übertragen eines Textes aus einer Sprache in eine andere |
Übersetzerarbeitsplatz | [n] | Ein Softwaresystem, das eine Arbeitsumgebung für einen menschlichen Übersetzer bereitstellt, die eine Reihe von Hilfen anbietet, wie z. B. Online-Wörterbücher, Thesauri, Übersetzungsspeicher usw. |
Übersetzungsspeicher | [n] | Ein System, das Übersetzungswissen zusammenträgt, indem frühere Übersetzungen gespeichert und nachgenutzt werden |
Verarbeitung natürlicher Sprache | [p] | Ein Begriff, der seit den 80er Jahren zur Definition einer Kategorie von Softwaresystemen verwendet wird, die Text intelligent bearbeiten |
Version | [n] | Ausgabe eines Dokuments, die sich von der vorangehenden unterscheidet und als solche erfaßt ist |
Versionskontrolle | [n] | Verwaltung der Erstellung, Erfassung und Ausgabe eines Dokuments |
Wizard of Oz Test | [p] | Test, bei dem die automatische Maschinenkomponente durch menschliche Intervention in beliebiger Form ersetzt wird, allerdings so, daß der am Test teilnehmende Nutzer sich des Austauschs nicht bewußt wird |
Wordnet | [n] | siehe Fachwörterbücher. |
Wörterbuch | [n] | Ein Verzeichnis von Wörtern mit einer Beschreibung eines jeden Wortes, die in der Regel nur die Bedeutung und eventuell die Etymologie des Wortes umfaßt |
Zeichenerkennung | [n] | siehe Buchstaben- und Formaterkennung. |
zusammenfassen | [v] | Eine prägnante Dokumentbeschreibung erstellen, die sich auf den gesamten Inhalt des Dokuments erstreckt |