Chat with us, powered by LiveChat

Entwicklungsprozess für kundenspezifische neuronale Maschinenübersetzung

Zum Starten einer neuen CNMTE (Custom Neural Machine Translation Engine) ist für Trusted Translations eine anfängliche Trainings- und Einrichtungsphase erforderlich. Das Folgende ist ein typischer Implementierungsprozess zum Erstellen eines neuen NMT-Systems.

Auswahl eines Baseline-Systems

Eine Menge von Inhalten wird zur Demokratisierung von Algorithmen entwickelt. Dieses Konzept sollte jedoch umfassender sein. Zum Beispiel beginnt die Demokratisierung von Technologielösungen damit, robuste Basissysteme zu einer guten Grundlage, auf der eine kundenspezifische Lösung aufgebaut werden kann, zu machen. Dienstleistungsangebote von Google, Microsoft oder Amazon helfen dabei, Ihre eigenen sauberen Daten an Systeme weiterzuleiten, die bereits gut geschult sind.

Datenauswahl und Korpusvorbereitung

Es gibt verschiedene Ansätze zum Erfassen von Trainingsdaten zum Erstellen eines kundenspezifischen Systems.

  • Vorhandener übersetzter Inhalt:

    Der ideale Ausgangspunkt für jedes kundenspezifische neuronale Maschinenübersetzungssystem besteht darin, zuvor übersetzte Materialien zu finden und zu verwenden, deren Inhalt dem zu übersetzenden Inhalt so ähnlich wie möglich ist. Je mehr bereits übersetztes Material verfügbar ist, desto schneller und wirtschaftlicher wird der Prozess. Wenn Quelle und Ziel nicht als Translation Memory-Einheiten zugeordnet sind, kann eine Ausrichtung durchgeführt werden, um den zweisprachigen Inhalt zu erhalten, der zur Steigerung der Leistung des Systems erforderlich ist

  • Vorhandene einsprachige Daten:

    Wenn ausreichende Mengen an Zielreferenzinhalten vorhanden sind, können Sie den gesamten Stil und die Terminologie nutzen, indem Sie diese zum Mix hinzufügen. Dieser Inhalt wurde wahrscheinlich von lokalen SMEs von Grund auf neu entwickelt, und sein Wert ist unübertroffen. Es ist unnötig zu erwähnen, dass die domänen- oder sogar kundenspezifische Terminologie ein hervorragender Vorteil beim Anpassen von Systemen auf Basis der NMT-Technologie ist, für welche die Terminologie als Hauptschwäche identifiziert wurde.

  • Erstellen eines speziellen Korpus aus anderen Quellen:

    Zusätzlich zur Verwendung von einsprachigen Daten durchsuchen wir das Web nach Materialien, die so nah wie möglich an den Inhalten ausgerichtet sind, welche das System durchlaufen. Auch hier zahlt es sich immer aus, Zeit in die Suche nach den Korpora mit der besten Qualität zu investieren. Gleiches gilt für zweisprachige Daten, die auf Datenmarktplätzen abgerufen werden können. Diese externen parallelen Daten müssen bereinigt werden (Rechtschreibprüfung, Ausrichtungsprüfung, Löschung von Duplikaten usw.), bevor sie als Trainingsdaten für ein MT-System verwendet werden können. In diesem Szenario ist ein viel größerer manueller Aufwand erforderlich, als wenn der Client von Anfang an in der Lage ist, ausreichende Mengen an qualitativ hochwertigen abgeglichenen Daten zu liefern. Es wird 4 bis 6 Wochen dauern, ein neues System aufzubauen.

Da immer mehr Ausgabe nachbearbeitet wird, kann diese in qualitativ hochwertige Trainingsdaten umgewandelt werden. Durch dieses adaptive Modell wird sich die Qualität der Ausgabe des Systems mit der Zeit recht schnell verbessern.

Umschulung: Neue CNMTEs verbessern sich durch menschliche Nachbearbeitung

Es gibt verschiedene Workflows mit benutzerdefinierten neuronalen Maschinenübersetzungssystemen. Eine übliche Konfiguration besteht darin, einen menschlichen Nachbearbeitungsprozess zu integrieren. Im Rahmen dieses Workflows wird die Ausgabe des kundenspezifischen neuronalen Maschinenübersetzungssystems von unseren Experten bearbeitet, um die Qualität der aktuellen Ausgabe zu verbessern und die Engine für zukünftige Übersetzungen neu zu trainieren. Während der Rezensent die Ausgabe ändert, um die Qualität zu verbessern, wird das System mithilfe eines dynamischen adaptiven Modells intelligenter. Außerdem wird das System mit der Zeit noch intelligenter, wenn mehr Übersetzungen durch das System fließen. Mit anderen Worten, die Qualitätslücke zwischen einer vollständigen menschlichen Übersetzung und dieser Lösung verringert sich dramatisch, während die Bearbeitungszeit und die Kosten erheblich reduziert werden. Diese Systeme werden unserer Meinung nach für jeden Kunden, der ein solches Bedürfnis hat, zu einem Asset und Marktunterscheidungsmerkmal.