Пять способов моделирования текста с использованием сети
Некоторые примеры того, как слова подключаются друг к другу в тексте, формируя сеть.В то время как такие слова, как «вершина» и «вершины», связаны с их общей формой, такие слова, как «тексты», «предложения» и «слова», связаны из -за их значений.Кредит: SciencePod
Один из полезных способов анализа текста - это думать о нем как о сети, и методы сетевого анализа, которые знакомы математикам, и компьютерные ученые могут быть мощными в лингвистике.
Теория сети может использоваться различными способами для моделирования взаимосвязи между словами в блоке текста, связывание аналитических закономерностей с когерентностью и с некоторыми более субъективными аспектами качества написания.
Дэви Альвес Оливейра и Эрнане Борхес де Баррос Перейра из Университета Баия, штат Баия, Бразилия сравнили пять методов представления предложений в качестве сетей, показывая, что каждый имеет значение для конкретных применений.Этот анализ в настоящее время опубликован в европейском физическом журнале B.
Их исследования фокусируются на свойстве текста, называемой сплочностью, которая по сути является тем, что делает блок текстовой работы в целом, а не на коллекцию случайных предложений.Его сплоченность в значительной степени основана на отношениях между словами.«Представьте себе текст как карта, со словами, как города … [и] мы соединяем слова, основываясь на том, как они относятся друг к другу», - объясняет Оливейра.«Это позволяет нам исследовать, как пользователи языка стратегически выбирают слова для создания связной структуры».
Теория сети основана на узлах, соединенных ребрами, которые определяют отношения между ними.Oliveira и Pereira представляют пять различных способов определения этих узлов и ребра в тексте, а затем используют инструменты сетевого анализа для измерения силы и схемы соединений.
В некоторых моделях отдельные слова заменяются как узлы леммами, или базовые слова (поэтому «текст» будет представлять как «тексты», так и «текстовые») и/или связывание таких слов, как «и» или «удален»;Кренки могут соединить последовательные слова или слова в том же предложении.
«Этот [анализ] позволяет нам видеть, как выбор слов влияет друг на друга, и способствует общему значению и структуре текста», - добавляет Оливейра.
Когерентность, а также более субъективные аспекты качества написания, такие как ясность и поток, могут быть связаны с сетевыми шаблонами.Это говорит о том, что анализы исследователей могут иметь практические приложения для учителей языка, писателей и переводчиков.
More information: Davi Alves Oliveira et al, Modeling texts with networks: comparing five approaches to sentence representation, The European Physical Journal B (2024). DOI: 10.1140/epjb/s10051-024-00717-0
Нашли ошибку в тексте? Напишите нам.