Цитата:
Можно ли сказать, что человек строит фразу по тому же принципу?
Родители в детстве формируют языковую модель, исправляя ошибки. Затем накапливается статистика - чем больше человек общается и читает, тем грамотнее речь.
Если да - получается, что мозг (и особенно мозг профессионального переводчика) хранит весь этот объем информации, который пока не под силу хранить и обрабатывать современному компьютеру (в количестве 1 шт).
Нет, в том то и отличие, что человеческий мозг хранит языковую модель на другом принципе - на принципе обощения и аналогии. Т.е. то, что статистический машинный переводчик будет хранить в виде списка состоящего из тысяч-десятков тысяч комбинаторных вариантов, в человечексом мозгу храниться в виде абстрактного правила с сылками на абстрактные категории, лексикон и т.д. Языковая модель статистической модели языка, напротив, должна хранить, например, все комбинации глагола "купить" со всеми его прямыми дополнениями, чтобы иметь возможность правильного выбора падежа. "купить стол", "купить рыбу", "купить приставку" и так до бесконечности... И обощающе-иерархическая человеческая модель работают сразу на любом слове. Например, если вдруг бы появилось слово zzzz в английском, которое переводилось бы новым словом "хрямбля", человек сразу знает из своей обощающе-иерархической модели, что правильно будет "купить хрямблю".
Итого, языковая модель в человеческом мозгу представлена в таком компактном виде, которые не удалось воспроизвести на компьютере. И вы должны понимать, что статистический переводчик - это функциональная модель (т.е. та, которая имеет целью только получить аналогичный результат), а не воспроизводящая (т.е. та, которая помимо получения того же результата, полность повторяет принципы работы моделируемого объекта).
Цитата:
Допустим, вычислительные мощности позволяют резко увеличить контекст - до 20-50 слов.
Разве это повысит качество перевода?
Нет, так как вы забываете о таком понятии, как разреженность данных (data sparsity). Т.е. комбинации с контекстом до пяти слов слева и справа будут в текстах повторятся десятки, сотни, тысячи раз, в то время как почти 100% комбинаций с контекстом 20-50 слов будут встречаться ровно один раз на всём объеме данных, которые доступны в Интернете сейчас, вы просто не представляете, сколько нужно языковых данных, чтобы такой длинный контекст существенно помогал (в миллионы, а то и миллиарды раз больше, чем сейчас есть во всем Интернете).
Разреженность языковых данных вы можете проверить на таком простом примере из 5 слов, которые я написал выше прямо в этом посте - "иметь возможность правильного выбора падежа" - поищите её в кавычках (т.е. на полное совпадение) в Гуглу - поиск даст 0 результатов (т.е. до меня еще никто такую комбинацию 5 слов в Интернете не употребил). Более того, вы просто не представляете, сколько вам места понадобится, чтобы хранить весь этот контекст в 20-50 слов, который встретился в каждом уникальном случае один раз. Именно, поэтому наиболее активно исполльзуются модели с комбинаторикой до 3, больше - не имеет особого смысла, так как при огромном количестве данных, которые надо хранить, все статистические мдели не показывают сколько-нибудь значительного прироста качества. Именно поэтому, во всех моделях, и особенно в моделях с более комбинаторикой больше 3 используются методя отступа на порядок (порядки ниже) или же линейная интерполяция всех порядков.
Более того, у статистической языковой модели есть такое понятие как способность к обобщению (которое далеко от человесексого обобщения, конечно), - это способность успешно работать на новых данных, на которых она не тренировалась. Так вот исходя из этого параметра ценность контекста 20-50 - стремится к нулю. Так как вероятность того, что комбинация из 20 слов, виденных на тренировочных данных встретится в новом тексте также стремится к нулю.
Цитата:
Разве не лучше ввести какой-то параметр типа "тональности" всего текста, который можно посчитать достаточно быстро для 50-100 страниц, и найти похожий текст в базе по этому параметру, и брать вероятности по этому тексту? В этом случае перевод может быть даже лучше оригинала, если в базе тексты высокого качества и слова подобраны точнее для этой предметной области.
Один текст для статистической модели - это ничто, разреженность данных будет стремиться к бесконечности и способность модели к обобщению будет стремиться к нулю.
Кстати, некоторые системы машинного перевода практикуют принцип памяти перевода из того же Trados - если текст/абзац целиком найден в параллельных текстах - выдается его перевод оттуда.