Maschinelle Übersetzung, manchmal mit der Abkürzung MT oder interaktive Übersetzung genannt) ist ein Teilgebiet der Computerlinguistik, der die Nutzung von Software untersucht, um Text oder Sprache von einer natürlichen Sprache in eine andere zu übersetzen.
Auf einer grundlegenden Ebene, führt MT einfache Substitution von Wörtern in einer natürlichen Sprache für Wörter in einem anderen, aber das allein kann in der Regel eine gute Übersetzung eines Textes nicht produzieren, weil die Anerkennung der ganzen Phrasen und ihren engsten Kollegen in der Zielsprache benötigt wird. Die Lösung dieses Problems mit Korpus und statistische Techniken ist ein schnell wachsendes Gebiet, die zu besseren Übersetzungen führen wird, Handhabung Unterschiede in Sprachtypologie, Übersetzung von Redewendungen und die Isolierung von Anomalien.
Aktuelle maschinelle Übersetzung Software ermöglicht es oft, die individuell nach Domain oder Beruf, die Verbesserung der Ausgabe durch den Umfang zulässiger Substitutionen. Diese Technik ist besonders effektiv in Bereichen, in denen formelle oder formelhaften Sprache verwendet wird. Daraus folgt, dass maschinelle Übersetzung der Regierung und der rechtlichen Dokumente leichter produziert nutzbare Leistung als Gespräch oder weniger standardisierten Text.
Verbesserte Ausgabequalität kann auch durch menschliche Eingriffe erreicht werden: zum Beispiel, sind einige Systeme in der Lage, genauer zu übersetzen, wenn der Benutzer eindeutig identifiziert, welche Wörter im Text Eigennamen sind. Mit Hilfe dieser Techniken hat sich als nützlich erwiesen MT als ein Werkzeug, um menschliche Übersetzer zu unterstützen, und in einer sehr begrenzten Anzahl von Fällen können sogar erzeugen Ausgang, der verwendet werden kann, wie es ist.
Der Fortschritt und das Potenzial der maschinellen Übersetzung wurde durch seine Geschichte viel diskutiert. Seit den 1950er Jahren wurde eine Reihe von Wissenschaftlern die Möglichkeit der Verwirklichung vollautomatische Maschine Übersetzung von hoher Qualität in Frage gestellt. Einige Kritiker behaupten, dass es in-Prinzip Hindernisse für den Übersetzungsprozess zu automatisieren.
Geschichte
Die Idee der maschinellen Übersetzung kann bis ins 17. Jahrhundert zurückverfolgen. Im Jahre 1629, René Descartes eine universelle Sprache vorgeschlagen, mit entsprechenden Ideen in verschiedenen Sprachen teilen sich ein Symbol. Das Feld der "maschinelle Übersetzung" erschien in Warren Weavers Memorandum zur Übersetzung. Der erste Forscher auf dem Gebiet, Yehosha Bar-Hillel, begann seine Forschung am MIT. A Georgetown MT Forscherteam folgte mit einer öffentlichen Demonstration seines Systems 1954 MT Forschungsprogramme in Japan und Russland aufgetaucht, und die erste MT Konferenz fand in London statt. Forscher fort, das Feld zu kommen, wie der Verein für Maschinelle Übersetzung und Computerlinguistik wurde in den USA und der National Academy of Sciences gebildet die automatische Sprachverarbeitung Beratungsausschuss bei MT zu studieren. Echte Fortschritte war viel langsamer, aber, und nach dem ALPAC Bericht, der festgestellt, dass die zehnjährige Forschung hatte die Erwartungen nicht zu erfüllen, wurde die Finanzierung stark reduziert.
Die Französisch Textile Institute auch verwendet werden, MT, Abstracts aus den und in Französisch, Englisch, Deutsch und Spanisch zu übersetzen; Brigham Young University ein Projekt gestartet, um Mormon Texten von automatisierten Übersetzungs zu übersetzen; und Xerox verwendet SYSTRAN, um technische Handbücher zu übersetzen. Beginnend in den späten 1980er Jahren, als die Rechenleistung erhöht und wurde billiger, mehr Interesse wurde in statistische Modelle für die maschinelle Übersetzung angezeigt. Verschiedene MT Unternehmen wurden ins Leben gerufen, darunter Trados, die der Erste, der Entwicklung und Vermarktung von Translation Memory-Technologie war. Der erste kommerzielle MT-System für Russisch / Englisch / Deutsch-Ukrainische wurde bei Kharkov State University entwickelt.
MT, die im Internet begann mit SYSTRAN bietet kostenfreie Übersetzung von kleinen Texten, gefolgt von AltaVista Babelfish, die bis 500.000 Anfragen pro Tag zerbrach. Franz-Josef Och gewann DARPA Geschwindigkeit MT Wettbewerb. Weitere Neuerungen in dieser Zeit enthalten Moses, der Open-Source-statistischen MT-Motor, einen Text / SMS-Übersetzungsdienst für Handys in Japan, und ein Mobiltelefon mit integrierter Sprache-zu-Sprache-Übersetzungsfunktionalität für Englisch, Japanisch und Chinesisch. Vor kurzem hat Google angekündigt, dass Google Translate übersetzt etwa genügend Text auf 1 Mio. Bücher an einem Tag zu füllen.
Die Idee der Verwendung von Digitalrechnern für die Übersetzung natürlicher Sprachen wurde bereits 1946 von AD Booth und möglicherweise andere vorgeschlagen. Warren Weaver schrieb ein wichtiges Memorandum "Übersetzung" im Jahr 1949. Das Georgetown Experiment war keineswegs der erste derartige Anwendung und eine Demonstration wurde 1954 auf der APEXC Maschine am Birkbeck College der eine rudimentäre Übersetzung von Englisch in Französisch gemacht. Mehrere Papiere zum Thema wurden zum Zeitpunkt veröffentlicht, und selbst Artikel in populären Zeitschriften. Eine ähnliche Anwendung, auch Birkbeck College Pionierarbeit an der Zeit, wurde das Lesen und Komponieren Braille Texte per Computer.
Übersetzungsprozess
Der menschliche Übersetzungsprozess können wie folgt beschrieben werden:
- Dekodieren der Bedeutung des Ausgangstext; und
- Re-kodierenden diese Bedeutung in der Zielsprache.
Hinter dieser scheinbar einfachen Verfahren liegt ein komplexer kognitiver Vorgang. Um die Bedeutung des Ausgangstextes in seiner Gesamtheit zu decodieren, muss der Übersetzer zu interpretieren und zu analysieren alle Funktionen des Textes, ein Prozess, vertiefte Kenntnisse der Grammatik, Semantik, Syntax, Redewendungen usw. der Quellsprache erfordert sowie die Kultur ihrer Sprecher. Der Übersetzer muss die gleiche fundiertes Wissen neu zu kodieren, die Bedeutung in der Zielsprache.
Darin liegt die Herausforderung in der maschinellen Übersetzung: wie man einen Computer, die "verstehen" einen Text als eine Person tut programmieren, und das wird "erstellen" einen neuen Text in der Zielsprache, dass "Sounds", als ob es von einem geschrieben Person.
In ihrer allgemeinsten Anwendung, ist dies über die derzeitigen Technologie. Obwohl es funktioniert viel schneller, keine automatische Übersetzungsprogramm oder Verfahren, ohne menschliche Beteiligung, können Ausgangs auch nur annähernd an die Qualität ein menschlicher Übersetzer produzieren kann zu produzieren. Was sie tun können, ist jedoch eine allgemeine, wenn auch unvollkommene Annäherung an das ursprüngliche Text, der für viele Zwecke, einschließlich unter optimaler Nutzung der endlichen und teure Zeit eines menschlichen Übersetzer ausreichend ist, für jene Fälle, in denen insgesamt vorbehalten Genauigkeit unabdingbar.
Dieses Problem kann in einer Anzahl von Weisen angegangen werden, wenn die Entwicklung, welche die Genauigkeit verbessert.
Ansätze
Maschinelle Übersetzung kann eine Methode, die auf linguistischen Regeln, was bedeutet, dass Worte werden in einer sprachlichen Weise übersetzt werden, zu verwenden - die geeignetsten Wörter der Zielsprache werden die, die in der Quellsprache zu ersetzen.
Oft wird argumentiert, dass der Erfolg der maschinellen Übersetzung erfordert das Problem der Sprachverstehen, zuerst gelöst werden.
Im Allgemeinen regelbasierte Methoden analysieren einen Text, in der Regel die Schaffung einer zwischengeschalteten, symbolische Darstellung, aus der der Text in der Zielsprache erzeugt. Je nach der Art des Zwischendarstellung wird ein Ansatz wie interlingualen maschinelle Übersetzung oder Übertragung basierte maschinelle Übersetzung beschrieben. Diese Verfahren erfordern umfangreiche Lexika mit morphologischen, syntaktischen und semantischen Informationen und große Sätze von Regeln.
Mit genügend Daten, Maschinenübersetzungsprogrammen arbeiten oft gut genug für einen Muttersprachler einer Sprache, um die ungefähre Bedeutung dessen, was von der anderen Muttersprache geschrieben zu bekommen. Die Schwierigkeit ist immer genügend Daten von der richtigen Art, um die besondere Methode zu unterstützen. Zum Beispiel die große mehrsprachige Datenkorpus für statistische Methoden zur Arbeit benötigt wird, ist nicht für die Grammatik basierende Methoden erforderlich. Aber dann müssen die Grammatik Methoden eine qualifizierte Linguisten sorgfältig zu entwerfen, die Grammatik, die sie verwenden.
Um zwischen eng verwandten Sprachen zu übersetzen, bezeichnet die Technik, die als regelbasierte maschinelle Übersetzung verwendet werden.
Regelbasierte
Die regelbasierte maschinelle Übersetzung Paradigma beinhaltet Transfer basierte maschinelle Übersetzung, interlingualen maschinelle Übersetzung und Wörterbuch-basierte Maschinenübersetzungs Paradigmen. Diese Art der Übersetzung wird vor allem bei der Erstellung von Wörterbüchern und Grammatik-Programmen verwendet. Im Gegensatz zu anderen Methoden, RBMT beinhaltet mehr Informationen über die Sprachwissenschaft der Ausgangs- und Zielsprache, mit den morphologischen und syntaktischen Regeln und semantische Analyse der beiden Sprachen. Der grundlegende Ansatz beinhaltet die Verknüpfung der Struktur der Eingabesatz mit der Struktur des Ausgabesatz mit einem Parser und einen Analysator für die Quellsprache, einen Generator für die Zielsprache, und einen Übertragungslexikon für die eigentliche Übersetzung. RBMT größte Nachteil ist, dass alles getan werden muss explizit sein: orthographischen Variationen und errouneous Eingang muss Teil der Quellsprache-Analysator, um damit fertig zu werden, und lexikalischen Auswahlregeln müssen für alle Instanzen der Mehrdeutigkeit geschrieben werden. Anpassung an neue Domänen an sich ist nicht so schwer, wie der Kerngrammatik ist das gleiche in Domänen und die domänenspezifische Anpassung an lexikalischen Auswahl Einstellung begrenzt.
Transfer basierten maschinellen Übersetzung
Transfer basierten maschinellen Übersetzung ist ähnlich interlingualen maschinelle Übersetzung, daß sie eine Übersetzung aus einer Zwischendarstellung, die die Bedeutung des ursprünglichen Satzes simuliert erstellt. Im Gegensatz zu interlingualen MT, teilweise kommt es auf das Sprachpaar im Translation beteiligt.
Interlingual
Interlingual maschinelle Übersetzung ist eine Instanz der regelbasierte maschinen Übersetzung Ansätze. Bei diesem Ansatz wird der Ausgangssprache, dh der Text übersetzt werden soll, wird in ein interlingualen Sprache, dh eine "Sprache neutral" Repräsentation, die unabhängig von jeder Sprache umgewandelt. Die Zielsprache wird dann aus der Zwischensprache erzeugt. Einer der wichtigsten Vorteile dieses Systems ist, dass die Zwischensprache wird wertvoller, wenn die Anzahl der Zielsprachen kann es in Erhöhungen gedreht werden. , Der einzige interlingualen Maschinenübersetzungssystem, das in der Handelsstufe in Betrieb genommen wurde, ist jedoch die KANT System, das dazu bestimmt ist, Caterpillar Technisches Englisch in andere Sprachen übersetzen.
Wörterbuch-basierte
Maschinenübersetzungs kann ein Verfahren basierend auf Wörterbucheinträge, so dass die Wörter übersetzt werden, wie sie durch ein Wörterbuch verwenden.
Statistische
Statistische maschinelle Übersetzung versucht, Übersetzungen mit Hilfe von statistischen Methoden, die auf zweisprachige Textkorpora wie die Canadian Hansard corpus, das Englisch-Französisch Rekord des kanadischen Parlaments und EUROPARL, den Datensatz des Europäischen Parlaments zu generieren. Wo solche Korpora zur Verfügung stehen, können gute Ergebnisse erzielt werden, übersetzen ähnliche Texte, aber solche Korpora sind noch selten für viele Sprachpaare. Die erste statistische maschinelle Übersetzung Software war CANDIDE von IBM. Google verwendet SYSTRAN seit einigen Jahren, aber eingeschaltet, um eine statistische Übersetzungsverfahren im Oktober 2007. Im Jahr 2005 verbessert Google seine internen Übersetzungsfähigkeiten unter Verwendung von etwa 200 Milliarden Wörter aus Materialien der Vereinten Nationen, um ihr System zu trainieren; Übersetzungsgenauigkeit verbessert. Google Translate und ähnliche statistische Übersetzungsprogramme arbeiten durch Erfassen von Mustern in Hunderten von Millionen von Dokumenten, die zuvor durch den Menschen übersetzt wurden und macht intelligente Vermutungen auf der Grundlage der Erkenntnisse. Im Allgemeinen sind die menschensetzten Dokumente in einer bestimmten Sprache, desto wahrscheinlicher ist es, dass die Übersetzung von guter Qualität sein. Neuere Ansätze in die Statistische Maschinelle Übersetzung wie METIS II und PRESEMT verwenden minimal corpus Größe und stattdessen auf die Ableitung der syntaktischen Struktur zu konzentrieren, durch Mustererkennung. Mit der Weiterentwicklung kann dies ermöglichen statistischen maschinellen Übersetzung, um weg von einer einsprachigen Textkorpus zu betreiben. SMT größten Untergang enthält es davon abhängt, riesige Mengen von Paralleltexten, ihre Probleme mit Morphologie-reiche Sprache, und seine Unfähigkeit, Singleton-Fehler zu korrigieren.
Beispielbasierte
Beispiel basierte maschinelle Übersetzung Ansatz wurde von Makoto Nagao 1984 beispielbasierte maschinelle Übersetzung basiert auf der Idee der Analogie auf Basis vorgeschlagen. Bei diesem Ansatz ist der Korpus der verwendet wird, eine, die Texte, die bereits übersetzten enthält. Bei einem Satz, der übersetzt werden soll, sind Sätze aus diesem corpus ausgewählt, die ähnliche Untersatzkomponenten enthalten. Die ähnlichen Sätze werden dann verwendet, um die Untersatzkomponenten des ursprünglichen Satz in der Zielsprache zu übersetzen, und diese Ausdrücke werden zusammengefügt, um ein vollständiges Wort zu bilden.
Hybrid MT
Hybrid maschinelle Übersetzung nutzt die Stärken von statistischen und regelbasierte Übersetzungsmethoden. Mehrere MT Organisationen behaupten, einen hybriden Ansatz, der sowohl Regelungen und Statistiken verwendet. Die Ansätze unterscheiden sich in mehrfacher Hinsicht:
- Rules nachbearbeitet durch Statistiken: Übersetzungen werden unter Verwendung einer Regeln-Engine durchgeführt. Statistiken werden dann in einem Versuch zu justieren / korrigieren Sie die Ausgabe von der Regel-Engine verwendet.
- Statistiken von Regeln leiten: Die Regeln werden verwendet, um Daten in einem Versuch, eine bessere Führung der statistischen Maschinenprozess vor. Regeln werden auch Post-Prozess verwendet die statistische Ausgabe an Funktionen wie die Normalisierung durchzuführen. Dieser Ansatz hat viel mehr Leistung, Flexibilität und Kontrolle bei der Übersetzung.
Große Probleme
Begriffsklärung
Disambiguierung Bedenken, eine geeignete Übersetzung, wenn ein Wort mehr als eine Bedeutung haben. Das Problem wurde erstmals in den 1950er Jahren von Jehoschua Bar-Hillel angehoben. Er wies darauf hin, dass ohne eine "Universallexikon", eine Maschine würde nie in der Lage, zwischen den beiden Bedeutungen eines Wortes zu unterscheiden. Heute gibt es zahlreiche Ansätze entwickelt, um dieses Problem zu überwinden. Sie können etwa in "flachen" Ansätze und "tief" Ansätze unterteilt werden.
Shallow Ansätze gehen davon keine Kenntnis von dem Text. Sie gelten nur statistische Methoden, um die Wörter rund um das mehrdeutige Wort. Tief Ansätze davon aus, eine umfassende Kenntnis des Wortes. Bisher flachen Ansätze waren erfolgreicher.
Claude Piron, ein langjähriger Übersetzer für die Vereinten Nationen und der Weltgesundheitsorganisation, schrieb, dass maschinelle Übersetzung, von seiner besten Seite, automatisiert die einfachere Teil eines Übersetzers von Arbeitsplätzen; desto schwieriger und zeitraubender Teil der Regel beinhaltet intensiven Forschungen, um Mehrdeutigkeiten im Ausgangstext, der die grammatischen und lexikalischen Erfordernisse der Zielsprache zu verlangen, die gelöst werden zu beheben:
Die ideale tiefen Ansatz würde die Übersetzungssoftware, um alle für diese Art der Begriffsklärung auf eigene notwendige Forschung erfordern; dies würde jedoch einen höheren Grad von AI als bisher erreicht wurde erforderlich. Eine flache Ansatz, der einfach am Sinn des mehrdeutigen englischen Satz, Piron erwähnt würde eine realistische Chance zu erraten falsch ziemlich oft erraten. Eine flache Ansatz, beinhaltet "bitten Sie den Benutzer über jede Zweideutigkeit" würde, von Piron Schätzung, nur zu automatisieren etwa 25% eines professionellen Übersetzers hat die Aufgabe, so dass die härter 75% immer noch von einem Menschen durchgeführt werden.
Nicht-Standard-Sprache
Einer der wichtigsten Fallstricke der MT ist seine Unfähigkeit, Nicht-Standard-Sprache mit der gleichen Genauigkeit wie Standard-Sprache zu übersetzen. Heuristische oder statistische basierend MT nimmt Eingaben von verschiedenen Quellen in Standardform einer Sprache. Regelbasierte Übersetzung, von der Natur, nicht enthalten gemeinsamen Nicht-Standard-Nutzungen. Dies bewirkt, dass Fehler in der Übersetzung nach einer einheimischen Quelle oder in der Umgangssprache. Einschränkungen für Übersetzung von lässig Sprache vorhanden Probleme bei der Verwendung der maschinellen Übersetzung in mobilen Geräten.
Benannte Stellen
Name Unternehmen, in engeren Sinne um konkrete oder abstrakte Entitäten in der realen Welt, einschließlich Menschen, Organisationen, Firmen, Orte usw. beziehen In bezieht sich auch auf zum Ausdruck von Zeit, Raum, Menge, wie beispielsweise dem 1. Juli 2011 79,99 $ und so weiter.
Benannten Entitäten treten im Text wird in der statistischen maschinellen Übersetzung analysiert. Die anfängliche Schwierigkeit, die im Umgang mit den genannten Gesellschaften entsteht, wird einfach im Text identifizieren. Betrachten Sie die Liste der Namen gemeinsam in einer bestimmten Sprache, um dies zu verdeutlichen - die häufigsten Namen sind für jede Sprache und auch ständig ändern. Wenn benannten Entitäten nicht durch die Maschine Übersetzer erkannt werden, können sie fälschlicherweise als Gattungsnamen, die höchstwahrscheinlich nicht beeinflussen würden die BLEU Bewertung der Übersetzung sondern menschliche Lesbarkeit des Textes zu ändern übersetzt werden. Es ist auch möglich, dass, wenn sie nicht identifiziert werden Eigennamen von der Ausgabe-Übersetzung, die auch hätte Auswirkungen auf die Lesbarkeit und die Botschaft des Textes verzichtet werden.
Eine weitere Möglichkeit, mit benannten Entitäten umzugehen ist, Transliteration statt Übersetzung verwenden, was bedeutet, dass Sie die Buchstaben in der Zielsprache, die am engsten mit dem Namen in der Ausgangssprache entsprechen, zu finden. Es hat Versuche gegeben, dieses in Maschinenübersetzungs durch Zugabe eines Trans Schritt in dem Übersetzungsverfahren zu integrieren. Jedoch immer noch diese Versuche ihre Probleme und sogar als eine Verschlechterung der Qualität der Übersetzung zitiert. Eigennamen waren noch nicht richtig identifiziert, mit Worten nicht transkribiert, wenn sie oder wird transkribiert, wenn sie nicht sollten. Zum Beispiel für "Southern California" das erste Wort sollte direkt übersetzt werden, während das zweite Wort sollte wiederzugeben. Allerdings wäre Maschinen oft transliterieren sowohl weil sie sie so behandelt, als eine Einheit. Worte wie diese sind schwer für Maschinenübersetzer, auch solche mit einer Translitekomponente, zu verarbeiten.
Der Mangel an Aufmerksamkeit für das Thema benannt Entität Übersetzung wurde als potentiell die sich aus einem Mangel an Ressourcen, um zur Aufgaben neben der Komplexität der Schaffung eines guten Systems zur Named Entity Übersetzung widmen anerkannt. Ein Ansatz, um benannte Entität Übersetzung war es, transkribieren, und nicht zu übersetzen, diese Worte. Eine zweite besteht darin, eine Liste "do-not-übersetzen", die das gleiche Ziel zu Ziel hat zu schaffen - Trans im Gegensatz zu übersetzen. Beide Ansätze immer noch auf die korrekte Identifizierung von benannten Unternehmen stützen, jedoch.
Ein dritter Ansatz, erfolgreiche Named Entity-Übersetzung ist eine klassenbasierte Modell. In diesem Verfahren werden benannten Entitäten mit einem Token, um die Klasse sie angehören, stellen ersetzt. Zum Beispiel, "Ted" und "Erica" wäre sowohl mit "Person" Class Token ersetzt werden. Auf diese Weise kann die statistische Verteilung und Nutzung von Personennamen im Allgemeinen kann anstatt sich auf den Ausschüttungen der "Ted" und "Erica" einzeln analysiert werden. Ein Problem, das die Klasse basierten Modell löst, ist, dass die Wahrscheinlichkeit eines gegebenen Namens in einer bestimmten Sprache beeinflußt nicht die zugewiesene Wahrscheinlichkeit einer Übersetzung. Eine Studie von Stanford an der Verbesserung dieses Gebiet der Übersetzung gibt die Beispiele, dass unterschiedliche Wahrscheinlichkeiten zu "David ist spazieren gehen" und "Ankit ist für einen Spaziergang" für Englisch als Zielsprache zugeordnet werden aufgrund der unterschiedlichen Anzahl der Vorkommen für jeden Namen in der Trainingsdaten. Ein frustrierenden Ergebnissen der gleichen Studie von Stanford ist, dass viele Male, was einem Rückgang in den BLEU Partituren für die Übersetzung aus der Einbeziehung von Methoden für die benannte Entität Übersetzung führen.
Ontologien in MT
Eine Ontologie ist eine formale Darstellung von Wissen, das die Konzepte in einer Domäne und einige Beziehungen zwischen ihnen umfasst. Wenn die gespeicherte Information sprachlicher Natur, eines Lexikons sprechen. NLP kann Ontologien als Wissensquelle für Maschinenübersetzungssysteme eingesetzt werden. Mit Zugang zu einer großen Wissensbasis können Systeme aktiviert werden, damit viele Unklarheiten auf eigene Faust zu lösen. In den folgenden klassische Beispiele, wie Menschen, sind wir in der Lage, um die Präpositionalphrase je nach Kontext, weil wir unser Wissen über die Welt, in unserem Lexika gespeichert verwenden zu interpretieren:
Maschinelles Übersetzungssystem würde zunächst nicht in der Lage, zwischen den Bedeutungen unterscheiden, weil Syntax nicht ändern. Mit einer ausreichend großen Ontologie als Wissensquelle jedoch können die möglichen Interpretationen mehrdeutige Wörter in einem spezifischen Kontext beschrieben reduziert werden. Weitere Einsatzbereiche für Ontologien im NLP zählen Information Retrieval, Informationsextraktion und Textzusammenfassung.
Erstellung von Ontologien
Die Ontologie erzeugt für die Pangloß wissensbasierte maschinelle Übersetzungssystem im Jahr 1993 kann als ein Beispiel dafür, wie eine Ontologie für NLP Zwecke zusammengestellt werden können dienen:
- Eine groß angelegte Ontologie ist notwendig, um das Parsen in den aktiven Modulen des maschinellen Übersetzungssystems zu helfen.
- Im Pangloß Beispiel wurden ca. 50.000-Knoten bestimmt ist, unter den kleineren manuell gebauten oberen Bereich der Ontologie subsumieren. Wegen ihrer Größe, musste es automatisch erstellt werden.
- Das Ziel war, die zwei Ressourcen LDOCE online und WordNet verschmelzen, um die Vorteile beider zu kombinieren: präzisen Definitionen von Longman, und semantischen Beziehungen so dass für halbautomatische taxonomization auf die Ontologie von WordNet.
- Eine Definition Match-Algorithmus wurde geschaffen, um die richtige Bedeutung der mehrdeutige Wörter zwischen den beiden Online-Ressourcen, basierend auf den Worten, dass die Definitionen dieser Bedeutungen ist gemeinsam in LDOCE und WordNet automatisch zusammenzuführen. Unter Verwendung einer Ähnlichkeitsmatrix lieferte der Algorithmus Einstimmungen zwischen Bedeutungen einschließlich einer Vertrauensfaktor. Dieser Algorithmus allein ist jedoch nicht alle Bedeutungen korrekt auf seinem eigenen übereinstimmt.
- Eine zweite Hierarchie Match-Algorithmus wurde deshalb geschaffen, die der taxonomischen Hierarchien in WordNet und teilweise in LDOCE gefunden nutzt. Dies funktioniert, indem zunächst pass eindeutige Bedeutungen, dann Begrenzung der Suchraum, um nur die jeweiligen Vor- und Nachfahren jener abgestimmt Bedeutungen. Somit ist die Algorithmus angepaßt lokal eindeutigen Bedeutungen.
- Beide Algorithmen ergänzten einander und halfen den Bau einer großen Ontologie für das Maschinenübersetzungssystem. Die WordNet Hierarchien, gekoppelt mit den passenden Definitionen von LDOCE, wurden oberen Bereich der Ontologie untergeordnet. Als Ergebnis war die Pangloß MT-System in der Lage, von dieser Wissensbasis zu machen, insbesondere im Rahmen des Erzeugungselements.
Anwendungen
Während kein System bietet die heilige Gral der vollautomatischen hochwertige maschinelle Übersetzung des uneingeschränkten Text, produzieren viele vollautomatische Systeme sinn ausgegeben. Die Qualität der maschinellen Übersetzung wird wesentlich verbessert, wenn die Domäne beschränkt und gesteuert.
Trotz ihrer inhärenten Beschränkungen, sind MT-Programme auf der ganzen Welt verwendet wird. Wahrscheinlich der größte institutionelle Nutzer ist die Europäische Kommission. Das MOLTO-Projekt, zum Beispiel von der Universität Göteborg koordiniert, erhielt mehr als € 2.375.000 Projekt Unterstützung durch die EU, einen zuverlässigen Übersetzungswerkzeug, das einen Großteil der EU-Amtssprachen abdeckt. Die weitere Entwicklung der MT-Systeme kommt zu einem Zeitpunkt, wenn Haushaltskürzungen in der menschlichen Übersetzung kann die Abhängigkeit der EU von zuverlässigen MT-Programme zu erhöhen. Die Europäische Kommission trug 3.072.000 € für die Schaffung von MT eine statistische maschinelle Übersetzung Programm, um die administrativen Anforderungen der EU abgestimmt, um eine vorherige regelbasierte maschinelle Übersetzungssystem zu ersetzen.
Google hat behauptet, dass viel versprechende Ergebnisse wurden unter Verwendung einer proprietären statistische maschinelle Übersetzungen erhalten. Die statistische Übersetzungsmaschine in den Google-Sprachmittel für Arabic & lt verwendet; - & gt; Englisch und Chinesisch & lt; - & gt; Englisch hatte eine Gesamtpunktzahl von 0,4281 gegenüber dem Zweitplatzierten IBM BLEU-4-Score von 0,3954 in Tests durch das Nationale Institut für Standards und Technologie durchgeführt.
Mit der jüngsten Fokus auf den Terrorismus haben die Militärquellen in den Vereinigten Staaten investiert erhebliche Summen in natürlicher Sprache Engineering. In-Q-Tel Unternehmen wie Language Weaver brachte. Derzeit ist die militärische Gemeinschaft interessiert sich für Übersetzung und Bearbeitung von Sprachen wie Arabisch, Paschtu und Dari. Innerhalb dieser Sprachen, ist der Fokus auf Schlüsselsätze und schnelle Kommunikation zwischen den Militärs und Zivilisten durch den Einsatz von Handy-Anwendungen. Das Büro Technik der Informationsverarbeitung in DARPA veranstaltet Programme wie Gezeiten und Babylon Übersetzer. US Air Force einen Vertrag $ 1.000.000, um eine Übersetzungstechnologie zu entwickeln ausgezeichnet.
In Dienstprogramme wie Facebook oder Instant Messaging-Clients wie Skype, Googletalk, MSN Messenger, etc. - - Die bemerkenswerte Aufstieg der Social-Networking im Web in den letzten Jahren ist noch eine andere Nische für die Anwendung von Software für maschinelle Übersetzungen erstellt so dass Anwender sprechen verschiedene Sprachen, um miteinander zu kommunizieren. Maschinelle Übersetzung-Anwendungen sind auch für die meisten mobilen Geräten, einschließlich Mobiltelefone, Pocket PCs, PDAs, etc. Aufgrund ihrer Portabilität freigegeben worden ist, haben diese Instrumente kommen, um als mobile Übersetzungstools Anbieter von mobilen Business-Networking zwischen den Partnern verschiedene Sprachen sprechen bezeichnet werden, oder sowohl des Fremdsprachenlernens und unbegleitete Reisen ins Ausland zu erleichtern, ohne die Notwendigkeit der Vermittlung von einem menschlichen Übersetzer.
Obwohl es als eine unwürdige Konkurrenz für die menschliche Übersetzung im Jahr 1966 durch die Automatische Sprachverarbeitung Beratenden Ausschusses markierten zusammengestellt von der Regierung der Vereinigten Staaten hat sich die Qualität der maschinellen Übersetzung jetzt zu solchen Ebenen verbessert worden, die ihre Anwendung in der Online-Zusammenarbeit und im medizinischen Bereich untersucht. In der Ishida und Matsubara Labor der Universität Kyoto, Verfahren zur Verbesserung der Genauigkeit der maschinellen Übersetzung als Instrument zur Unterstützung der interkulturellen Zusammenarbeit in der heutigen globalisierten Gesellschaft untersucht. Die Anwendung dieser Technologie im medizinischen Bereich, wo menschliche Übersetzer fehlen ist ein weiteres Thema der Forschung jedoch Schwierigkeiten aufgrund der Bedeutung einer genauen Übersetzungen im medizinischen Diagnosen.
Bewertung
Es gibt viele Faktoren, wie Maschinenübersetzungssysteme ausgewertet beeinflussen. Diese Faktoren umfassen die beabsichtigte Verwendung der Übersetzung, die Art des Maschinenübersetzungssoftware und die Natur des Übersetzungsprozesses.
Im Hinblick auf den Verwendungszweck der Übersetzung ist Evaluierung schwierig, da verschiedene Programme funktionieren gut für verschiedene Zwecke. Zum Beispiel statistische maschinelle Übersetzung übertrifft typischerweise beispielbasierte maschinelle Übersetzung, aber die Forscher fanden heraus, dass bei der Bewertung von Englisch nach Französisch Übersetzung führt EBMT besser. Eine Möglichkeit für diese Ausnahme ist aufgrund der größeren Vereinbarung Fehler und Grenzreibung in der englischen Sprache, verglichen mit Französisch. In der Erwägung, SMT genauer übersetzt Französisch auf Englisch erscheint EBMT zu sein nützlich für weniger einfach Übersetzungen. Das gleiche Konzept gilt für technische Dokumente, die leichter von SMT wegen ihrer Formensprache übersetzt werden kann. Es ist wichtig, um die Funktionalität zu übersetzen Programme beim Analysieren Genauigkeit prüfen.
Es gibt verschiedene Mittel zum Auswerten der Qualität der Ausgabe von Maschinenübersetzungssysteme. Die älteste ist die Verwendung von menschlichen Richtern Qualität einer Übersetzung zu beurteilen. Obwohl menschliche Evaluierung ist zeitaufwendig, ist es immer noch die zuverlässigste Methode, um verschiedene Systeme wie regelbasierten und statistischen Systeme zu vergleichen. Im Jahr 1990 untersucht menschliche Richter alle verfügbaren Forschungs- und kommerziellen Maschinenübersetzungsprogrammen. Die Ausgangssignale der Programme wurden für die menschliche Übersetzung verglichen und auf drei Komponenten ausgewertet. Die erste Komponente war fließend, auch genannt die Verständlichkeit, die die Diskrepanz zwischen dem Ausgang und eines englischen Sprecher mentales Modell der fließend Englisch misst. Die zweite war die Angemessenheit, der das Ausmaß, in dem die Bedeutung zum Ausdruck in der menschliche Übersetzung in der MT-Ausgang vorhanden war, gemessen. Die letzte Komponente war Aussage, auch als Wiedergabetreue, das die Menge des benötigten im Ausgangs vorliegenden Informationen untersucht. Die Ergebnisse der Auswertungen zeigten, dass MT-Systeme im Durchschnitt führen nur 65% sowie Menschen translators.Automated bedeutet der Evaluation gehören BLEU, NIST, METEOR und Lepor.
Sich ausschließlich auf unbearbeiteten Maschinenübersetzungs ignoriert die Tatsache, dass die Kommunikation in der menschlichen Sprache ist kontext eingebettet ist und dass es eine Person, die den Rahmen des ursprünglichen Textes mit einem angemessenen Grad an Wahrscheinlichkeit zu begreifen. Es ist sicherlich richtig, dass auch rein menschliche generierte Übersetzungen sind fehleranfällig. Deshalb, um sicherzustellen, dass ein Maschinengenerierte Übersetzung wird nützlich sein, ein menschliches Wesen und dieser zur Veröffentlichung hochwertige Übersetzung erreicht werden, so müssen diese Übersetzungen überprüft und von einem Menschen bearbeitet werden. Der verstorbene Claude Piron schrieb, dass maschinelle Übersetzung, von seiner besten Seite, automatisiert die einfachere Teil eines Übersetzers's Job; desto schwieriger und zeitraubender Teil der Regel beinhaltet intensiven Forschungen, um Mehrdeutigkeiten im Ausgangstext, der die grammatischen und lexikalischen Erfordernisse der Zielsprache zu verlangen, die gelöst werden lösen. Diese Forschung ist eine notwendige Vorspiel zu der Pre-Editing, um Input für Maschinenübersetzungssoftware, so dass der Ausgang nicht bedeutungslos sein bereitzustellen notwendig.
Bei bestimmten Anwendungen jedoch zB Produktbeschreibungen, in einer kontrollierten Sprache geschrieben, ein Wörterbuch-basierte Maschinenübersetzungssystem zufriedenstellend Übersetzungen, die kein menschliches Eingreifen speichern für die Qualitätskontrolle erfordern produziert.
Durch den Vergleich von Waren aus verschiedenen Arten von Google Translate und Youdao Übersetzen, schließt der Autor, dass maschinelle Übersetzung hat einige Vorteile und Nachteile.
Es ist notwendig, die Aufmerksamkeit auf Rhythmus und Konnotation bei der Übersetzung von Gedichten zu bezahlen, nach der Atmosphäre des Gedichts. Maschinelle Übersetzung oft übersetzt Wort für Wort, aber versäumt, den Rhythmus, so dass es scheinen, wie etwas anderes als ein Gedicht. Bei der Übersetzung von Romanen, sind einige Verben und die Logik der Geschichte wichtig. Maschinelle Übersetzung kann eine Geschichte fehlende Logik und machen die Geschichte schwieriger zu verstehen, wie die Übersetzung der Verbindung Wort "und". Wenn es um Ausstellungen geht, sollte die Aufmerksamkeit auf die genaue Auswahl der lexikalischen Übersetzung zahlen. Diese Art von Artikel hat Ausdrücke, die relativ objektiv und klar sind. Der richtige Rahmen, wenn vor polysemes und grammatikalische Probleme ist ein sehr großer Teil der maschinellen Übersetzung.
Neben Begriffsklärung Probleme, verringerte Genauigkeit aufgrund der unterschiedlichen Niveaus der Trainingsdaten für die Maschinenübersetzungsprogrammen auftreten. Beide beispielbasierte und statistische maschinelle Übersetzung stützen sich auf eine Vielzahl von realen Beispielsätze als Basis für die Übersetzung, und wenn zu viele oder zu wenige Sätze analysiert Genauigkeit gefährdet. Forscher fanden heraus, dass, wenn ein Programm auf 203.529 Satz Paarungen geschult, tatsächlich verringert Genauigkeit. Das optimale Niveau der Trainingsdaten scheint etwas mehr als 100.000 Sätze, möglicherweise, weil als Trainingsdaten zu, die Anzahl der möglichen Sätze erhöht werden, so dass es schwieriger, eine genaue Übersetzung Übereinstimmung zu finden.
Trotz dieser Nachteile maschinelle Übersetzung behält noch einige Vorteile. Erstens ist maschinelle Übersetzung viel schneller als menschliche Übersetzung. Zweitens verwendet maschinelle Übersetzung eine viel größere Menge des Vokabulars als menschliche Übersetzung. Obwohl Nacheditierung wird noch immer von Übersetzern benötigt, müssen sie ein paar Worte und Grammatik passen nach den vorgefertigten Zieltexte aus maschinelle Übersetzung. Dadurch wird die Geschwindigkeit und Effizienz der Übersetzer erheblich verbessern. Als Ergebnis zweifellos menschliche Übersetzung sollte mit maschinellen Übersetzung integriert werden, um Mängel abstellen. Der Autor hofft, dass weitere Forschung und Entwicklung, maschinelle Übersetzung kann in der Lage zu übersetzen Artikeln verschiedener Arten in der nahen Zukunft sein.
Verwendung maschinelle Übersetzung als Lehrmittel
Zwar gab es Bedenken der Genauigkeit maschinelle Übersetzung ist, hat Dr. Ana Nino von der Universität von Manchester einige der Vorteile bei der Verwendung von maschinellen Übersetzung in der Klasse untersucht. Eine solche pädagogische Methode wird mit dem Namen "MT als Bad-Modell." MT als Bad Modell zwingt den Fremdsprachenlerner zu Inkonsistenzen oder falsche Aspekte der Übersetzung zu identifizieren; wiederum wird das Individuum ein besseres Verständnis der Sprache zu besitzen. Dr. Nino führt, dass diese Lehrmittel wurde in den späten 1980er Jahren eingeführt. Am Ende der verschiedenen Semester war Dr. Nino in der Lage, Ergebnisse der Umfrage von Studenten, die MT als Bad Modell Überwältigend benutzt hatte zu bekommen, fühlte Studenten, dass sie besseren Verständlichkeit, lexikalische Abruf und erhöht das Vertrauen in ihre Zielsprache beobachtet hatte.
Maschinelle Übersetzung und unterzeichnete Sprachen
In den frühen 2000er Jahren, waren Optionen auf maschinelle Übersetzung zwischen Wort und Gebärdensprachen stark eingeschränkt. Es war eine gemeinsame Überzeugung, dass gehörlose Menschen könnten traditionelle Übersetzer verwenden. Aber Stress, Intonation, Tonhöhe und Timing sind sehr unterschiedlich in der gesprochenen Sprache im Vergleich zu Gebärdensprachen gefördert wird. Daher kann ein Gehörlose Einzel falsch interpretieren oder verwirrt über die Bedeutung des geschriebenen Text, der auf einer gesprochenen Sprache basiert.
Forscher Zhao, et al., Entwickelte einen Prototyp namens Team, das Englisch in der amerikanischen Gebärdensprache Übersetzungen abgeschlossen. Das Programm würde analysieren zunächst die syntaktischen, grammatischen und morphologische Aspekte der englische Text. Nach diesem Schritt zugegriffen das Programm ein Zeichen Synthesizer, der als Wörterbuch für ASL beaufschlagt. Dieser Synthesizer untergebracht ist den Prozess man folgen muss, um ASL Zeichen sowie die Bedeutungen dieser Zeichen zu vervollständigen. Sobald der gesamte Text analysiert und die erforderlich sind, um die Übersetzung zu vervollständigen Zeichen sind in dem Synthesizer befindet, erscheint ein Computer generierte Mensch und würde ASL verwenden, um den englischen Text, um den Benutzer zu unterzeichnen.
Copyright
Nur Arbeiten, die ursprünglichen sind urheberrechtlich geschützt, so dass einige Wissenschaftler behaupten, dass die maschinelle Übersetzung Ergebnisse nicht dem Urheberrechtsschutz mit dem Titel, da MT nicht um Kreativität. Das Urheberrecht in Frage für eine abgeleitete Arbeit; der Autor des ursprünglichen Arbeit in der Originalsprache nicht seine Rechte verlieren, wenn ein Werk übersetzt: ein Übersetzer muss die Erlaubnis, eine Übersetzung zu veröffentlichen.
Kommentare - 0