Вече говорим за повече от половината съдържание
Машинният превод, както сме свикнали да го наричаме още, обикновено е с лошо качество, което веднага подсказва, че не е плод и на човешка ръка. Текстовете най-често са превеждани на езици от южното полукълбо – например африкански. Сега на анализ ги подлага лабораторията за изкуствен интелект Amazon Web Services.
За целта са проучени общо 6,38 млрд. изречения, свалени от интернет. Търсят се паралели между тях, които да покажат на колко езика е преведено всяко от изреченията. Така е установено, че 57,1% от тях са преведени поне на три езика.
„Темата ни заинтригува, след като наши колеги, които работят в областта на машинния превод и майчин език им е някой от езиците, за които има по-малко източници, установиха, че голяма част от интернет на родния им език изглежда така, сякаш е създадена от машина”, казва Мехак Даливал, който е докторант в Калифорнийския университет в Санта Барбара.
Моделите за изкуствения интелект се основават изключително на данни от северната част на света – с други думи, от Запада. Това си личи и в последвалите резултати. Така преводите на езици, за които няма достатъчно тренировъчни модели за създаване на точен текст, се отличават с много ниско качество.
Изреченията, преведени например на френски, са много по-верни, обобщава Даливал – на френски всъщност има и много повече източници, като така е и с английския. Затова и текстовете на тези езици са с по-голяма достоверност.