Новости

Модель Aeneas поможет реконструировать латинские надписи. Ее обучили почти на 177 тысячах эпиграфических памятников

Исследователи из Google DeepMind и их коллеги представили мультимодальную генеративную модель Aeneas, созданную для работы с эпиграфическими памятниками, которые сделаны на латинском языке. Ученые обучили модель почти на 177 тысячах надписей, относящихся к VII веку до нашей эры — VIII веку нашей эры. Эксперименты показали, что инструмент выступает хорошим помощником для лингвистов и историков, позволяя быстрее и качественнее определять время и место создания надписи, а также реконструировать недостающие части первоначального текста. Статью, посвященную разработке, опубликовали в журнале Nature.

Эпиграфические памятники представляют собой древние и старинные надписи или изображения, созданные на твердых предметах, например на каменных, глиняных или металлических изделиях, элементах сооружений или валунах и скалах. Очень часто подобные надписи сохраняются до наших дней не целиком. Кроме того, порой у них отсутствует археологический контекст, который позволяет датировать находку и даже определить ее географическое происхождение.

Чтобы восполнить эти пробелы, лингвисты и историки прибегают к различным методам, которые, например, позволяют сделать гипотетическую реконструкцию первоначального текста, опираясь в первую очередь на аналогии из уже известных памятников. Также существуют подходы, которые помогают датировать подобные находки. В частности, на время создания той или иной надписи могут указывать особенности орфографии или начертания букв.

На работу с каждой надписью у исследователей может уходить очень много времени, поэтому разработчики алгоритмов машинного обучения предлагают решения, которые способны облегчить или ускорить этот труд. Именно такому инструменту посвятили статью Яннис Ассаэль (Yannis Assael) из Google DeepMind и его коллеги из Бельгии, Великобритании, Греции и США. Опираясь на уже разработанную модель Ithaca, созданную для работы с древнегреческими текстами, ученые сделали более продвинутый инструмент для работы с надписями на латинском языке. Новая мультимодальная генеративная модель с открытым доступом получила название Aeneas — в честь мифологического героя Троянской войны Энея, который по легенде также был предком Ромула и Рема.

Исследователи обучили модель на материалах из трех крупнейших баз эпиграфических памятников, написанных на латинском языке. В общей сложности они составили корпус из 176861 надписи (16 миллионов символов), относящихся к периоду с VII века до нашей эры и вплоть до VIII века нашей эры. Эти памятники происходили из разных частей Римской империи: от современных территорий Британии и Португалии на западе до Египта и Месопотамии на востоке. Кроме того, около пяти процентов надписей сопровождались изображениями памятников.

Модель способна предсказывать с хорошей точностью географическое происхождение памятника, а также определять время его создания. Однако основная функция инструмента — поиск аналогий в доступном корпусе текстов, а также создание гипотетических реконструкций недостающих частей надписей. Причем, как пишут авторы статьи, в отличие от предшествующей модели Ithaca, Aeneas способна работать в режиме, когда размер недостающей части текста остается неизвестным.

Чтобы проверить эффективность разработки, исследователи провели эксперимент, состоящий из трех этапов. В рамках него 23 участника (от магистрантов до профессоров), имеющих опыт работы в области эпиграфики, должны были реконструировать утраченную часть надписи и определить, когда и где ее создали. Каждый участник получил возможность работать с корпусом из 141 тысячи латинских надписей, которые сопровождались соответствующими метаданными. На первом этапе исследователи должны были самостоятельно за ограниченное время решить поставленные перед ними задачи. На втором этапе им давали возможность узнать по десять параллелей к каждому памятнику, которые подобрала модель Aeneas, и использовать те, что они посчитали полезными. На третьем же этапе исследователи получали реконструкции, которые предложила генеративная модель.

Если обобщать усредненные результаты эксперимента, то они показали, что исследователи, использующие Aeneas, справлялись с поставленными задачами лучше, чем без нее или модель без вмешательства человека. В частности, участники эксперимента в среднем использовали по полторы подсказанных моделью параллели из других древних текстов, чтобы реконструировать утраченную часть надписи. В большинстве случаев исследователи считали подсказки от Aeneas полезной помощью в качестве отправной точки для будущей работы. Кроме того, использование модели заметно повышало их уверенность в правильности решения поставленных задач.

Среди прочего, много латинских эпиграфических памятников археологи обнаружили во время раскопок в Помпеях. В частности, исследователи нашли там избирательные лозунги, написанные на стенах домов. Подробнее о некоторых из них читайте в нашем блоге «О чем рассказали избирательные лозунги в Помпеях».

Источник

Нажмите, чтобы оценить статью
[Итого: 0 Среднее значение: 0]

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован.

Кнопка «Наверх»