ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Определение семантического сходства / различия между предложениями одного языка или разных языков является одной из важнейших задачи автоматической обработки текстов. Эта задача тесно связана с определением семантической близости между словами, но ослажняется структурными различиями между предложениями, порядком слов, набором зависимостей и скрытыми / явными отрицанями, метафорическими ссылками и многим другим. Синтаксический подход заключается в обнаружении сходства предложений, в основном с использованием дерева зависимостей. Предлагаемый подход объединяет синтаксический анализ предложений с семантическим анализом слов в него входящих. Мерой близости / расстояния между предложениями принимается модифицированное расстояние редактирования или расстояние Левенштейна (РЛ) [1], т.е. число замен, перестановок, удалений слов, необходимых для унификации двух предложений. Результаты применения метода достаточно обнадеживающе и имеют благоприятные перспективы. Determining the similarity / difference between sentences is one of the most important tasks of natural language processing (NLP). This task is an extension of the definition of semantic closeness between words, but is aggravated due to the structural differences between sentences, hidden / explicit negations, metaphorical references, etc.The syntactic approach includes the detection of the similarity of sentences, mainly expressed by the dependency trees. The proposed approach combines the syntactic analysis of sentences with determing the semantic distance between the words comprising it. A measure of proximity / distance between sentences assumes a modified edit distance or Levenshtein distance (LD), i.e. number of replacements, permutations, deletions of words necessary for the unification of two sentences. The results of the method are rather encouraging and have favorable prospects. The trees of the dependence of the two sentences are compared at the level of the structure, (for two different sentences with the same structure LD1 = 0. At the level of the structure of trees with the vertexes marked with parts of the speech LD2 >= LD1, at the level of semantically labeled trees LD#>=LD2, and, finally, at the level of trees with vertices labeled with specific words LD4> = LD3.