facebook
twitter
vk
instagram
linkedin
google+
tumblr
akademia
youtube
skype
mendeley
Page translation
 

Автоматизация составления учебного словаря-минимума на основе извлечения терминов из определённого массива текстов: анализ состояния и пути решения

Автоматизация составления учебного словаря-минимума на основе извлечения терминов из определённого массива текстов: анализ состояния и пути решения
Smirnova Yulia, associate professor, candidate of education, associate professor

Василий Сербин, руководитель научно-исследовательской лаборатории информационных технологий, candidate of technical sciences

Almaty Institute of Power Engineering and Telecommunications, Kazakhstan

Championship participant: the National Research Analytics Championship - "Kazakhstan";

the Open European-Asian Research Analytics Championship;

Непременным атрибутом жизни современного человека является регулярное использование словаря: будь то электронный словарь в смартфоне, тезаурус текстового редактора «MicrosoftWord» или программа проверки орфографии, ориентированная на использование орфографического словника, работа с которой ощущается даже тогда, когда пишем e-mail или sms. Словарь стал незаменимым аксессуаром, когда мы находимся в заграничной поездке. И безусловно, неоспорима ключевая роль словаря при освоении того или иного языка. Традиционно лексиконом №1 в этом процессе становится словарь-минимум, скомпилированный по частотному принципу, причем ориентируются на «нижний порог» употребительности, то есть подтверждение единицы тремя источниками.[1]В целом же словари могут дифференцироваться по разным основаниям: по характеру отображаемой информации (лингвистические и энциклопедические), по типу носителя (от древних словарей на глиняных табличках до современных электронных), − характер оснований классификаций зависит преимущественно от вкуса и личных предпочтений лексикографа. Строгая классификация словарей, по определению В.М. Лейчика,  вообще вряд ли возможна.[2]Нередко дискуссию вызывает само определение словаря в контексте того или иного лингвистического направления,[3]а также характер построения современных лингвистических словарей и их типология, особенно жаркие споры разгораются вокруг отличительных признаков толкового словаря от тезауруса или глоссария,[4]а также вокруг концепции идеального словаря.[5]В этой статье нас будут интересовать прежде всего современные учебные словари-минимумы научно-технических терминов. Это весьма актуальное для сегодняшнего дня направление – научно-техническая терминография. И рост интереса к ней связан преимущественно со следующими двумя факторами:

1 взрывообразное развитие современной научно-технической терминологии, обусловленное развитием новых технологий (компьютеры, электроника, связь etc.);

2 заметное (более чем в 10 раз) численное преобладание терминологических словарей по сравнению с другими видами лексиконов.[6]

Первый фактор влечёт за собой ряд следствий методического характера. Так, научно-технические тексты, отобранные для учебных целей и предназначенные для занятий по русскому языку в студенческой аудитории, довольно быстро перестают быть актуальными и уже не мотивируют учащихся к изучению языка как инструмента профессиональной коммуникации, поскольку исчезает элемент новизны в текстах, соответственно снижается интерес к предмету. Учебный словарь-минимум (терминологический, двуязычный, энциклопедического типа, комплексный или просто словник – любая из этих разновидностей) традиционно составляется по частотному принципу на основании учебных текстов, таким образом, он устаревает тоже. При изменении набора текстов, используемых в терминографических целях, закономерно меняется содержание массива терминологических единиц и происходит их частотное перераспределение, то есть меняется содержание словаря-минимума, иногда радикальным образом.

Второй фактор демонстрирует необходимость наличия такого рода словарей. Но, с другой стороны, процесс компилирования словаря-минимума, отбора для него лексических единиц – трудоёмкое и долгое занятие,[7]которое практикующему русисту приходится делать довольно часто. Поэтому актуализируется проблема автоматизированного поиска (выборки) терминов из конкретного набора актуальных научно-технических текстов.

На сегодняшний день существует неавтоматизированный гибридный метод отбора терминов из аутентичных текстов, в котором частично используются лексическая классификация, анализ ключевых слов, терминоизвлечение и систематическое классифицирование.[8]Тем не менее этот метод не решает проблемы автоматизированного отбора терминов, поскольку лексическая классификация терминов в автоматизированных системах, как будет показано далее, в силу объективных причин затруднена.

Мы предлагаем разработанный механизм поиска терминов из научно-технического текста, отличающийся системой исправления и распознавания запросов, а также системой ранжирования и смешивания результатов, т.е. наборов терминов, полученных из разных текстов. Этот механизм, как и большинство современных онлайновых лингвистических ресурсов (Машинный фонд, Национальный корпус русского языка и т.д.), предполагается использовать в Интернете.

Алгоритм поисковой системы состоит из 3 систем. Это следующие системы: Система распознавания и исправления запросов, Система кеширования результатов, Система получения и смешивания результатов, поиск. На рисунке 1 представлена общая модель автоматизации составления  учебного словаря-минимума на основе извлечения терминов из определённого массива текстов.

Рисунок 1 – Общая модель автоматизации составления  учебного словаря-минимума на основе извлечения терминов из определённого массива текстов

При смешивании результатов соблюдаются следующие требования:

- результаты со всех трех поисковых систем являются равноправными;

- учет, уничтожение дубликатов и ранжирование результатов производится по доменному имени "site.kz", а не по полному url-адресу, т.к. поисковые системы запоминают конкретные страницы веб-сайтов с разными переменными и префиксами;

- результаты с поисковых систем берутся пакетами по 10-20-30 и т.д. адресов, но с Google - 8-16-24 и т.д. Ограничение GoogleAPI.

Все получаемые с поисковых систем результаты условно делятся на три группы и при смешивании каждая группа следует за предыдущей по порядку:

- адрес сайта (доменное имя) встречается в трех поисковых системах;

- адрес сайта (доменное имя) встречается в двух поисковых системах;

- адрес сайта (доменное имя) встречается в одной поисковой системе.

В каждой группе результаты выстраиваются по принципу:

 - чем меньше сумма мест каждого отдельного результата в каждой поисковой системе, тем выше этот адрес при ранжировании в смешанных результатах.

Результаты в первой группе. Если страница сайта "а" во всех трех поисковых системах заняла первые места, т.е. её сумма мест будет равна 3, что является максимально низкой суммой мест, то и при ранжировании в смешанных результатах она займет первое место. Если страница сайта "b" во всех трех поисковых системах заняла вторые места, сумма мест будет равна 6 и при ранжировании в смешанных результатах она займет второе место. Если страница сайта "с" во всех трех поисковых системах заняла третьи места, сумма мест будет равна 9 и при ранжировании в смешанных результатах она займет третье место.

Результаты во второй группе, которая следует за первой. Если страница сайта "а" в двух любых поисковых системах (при условии отсутствия в третьем поисковике) заняла первые места, т.е. её сумма мест будет равна 2, что является максимально низкой суммой мест, то и при ранжировании в смешанных результатах она займет первое место. Если страница сайта "b" в двух любых поисковых системах (при условии отсутствия в третьем поисковике) заняла вторые места, сумма мест будет равна 4 и при ранжировании в смешанных результатах она займет второе место и т.д.

Таким образом, при ранжировании групп и адресов сайтов (рис.2), а также уничтожении дубликатов при смешивании результатов от всех поисковых системах, на отдельной странице выстраивается наиболее релевантная по отношению к запросу пользователя последовательность поисковых результатов.

 

Рисунок 2 – Алгоритм смешивания результатов поиска

Таким образом, разработан механизм поиска, отличающейся системой исправления и распознавания запросов, системой ранжирования и смешивания результатов.

Распознавание лексических значений неоднозначных единиц производится человеком автоматически, на основе некоторых имплицитных правил. Поскольку отправитель и адресат сообщения в одинаковой степени владеют этими правилами, лексическая неоднозначность не препятствует их общению. Компьютер же подобными правилами декодирования не обладает, т.е. их необходимо задать,[9]то есть необходимо сформулировать запрос. И здесь возникает сложность, состоящая в принципиальной невозможности формулировки технического задания как такового. Связано это со следующими причинами.

1 Влияние человеческого фактора. Подавляющее большинство текстов (в том числе научно-технических) являются продуктом работы человеческого мозга. Поэтому в технических текстах не исключены ошибки в употреблении терминов, например, на почве паронимии: спектр – спекл, кюри – кюрий, гало – галоид, ангидрит – ангидрид, квадрат - квадрант и т.п., эти ошибки  можно распознать, опираясь на контекст и располагая соответствующими знаниями в данной области, что в настоящее время под силу только человеку.

2 Отсутствие идеального термина. Так, термин – определяемое, т.е. субъект, обычно обозначается аббревиатурой Dfd (от латинского Definiendum), языковое выражение значения термина – определяющее, т.е. предикат, обозначается Dfs (от латинского Definiens). Установление тождества субъекта и предиката обычно обозначается формулой Dfd ≡ Dfs (≡ − знак дефиниционного тождества). Для автоматизированного извлечения термина из текста целесообразно использовать метод качественно-количественного логического анализа. В его основе лежит понимание содержания понятия как суммы всех качеств и отношений соответствующего этому понятию конкретного или абстрактного предмета. Формально это выглядит так:[10]

                                         n                       m

                                   B=Ki(B) ?K(C),                                          (1)

                                        i=k                   i=1

гдеB– максимально полное понятие о предмете; К1, К2, …Кn– качества; С12, …Сn– разнопорядковые стороны, свойства, отношения и т.п.; К (В) – качества объекта в целом; К(С) – качества его сторон, свойств, отношений и т.п.; ? – знак конъюнкции.

  Термины, имеющие все представленные в этом выражении переменные, то есть безупречную характеристику, сравнительно редки. Более того, в научно-техническом дискурсе встречаются термины-девиации: многозначные и термины свободного использования, абсолютные терминологические синонимы-дублеты, нестандартизованные и устаревшие термины, а также профессионально-просторечные варианты терминов. Кроме того, категории терминов неодинаково распределяются текстах различных подстилей и жанров научно-технического стиля. Так, например, в монографиях, диссертациях, научных статьях и тезисах, проектных и конструкторских документах, в описаниях изобретений ect. будут содержаться нестандартизованные термины,[11]которые невозможно выделить автоматически как раз в силу их нестандартизованности, то есть незафиксированности в тезаурусной системе компьютера.

Таблица 1 – Матрица распределения терминов в подстилях и жанрах научно-технического стиля

Термины

Собственно научный подстиль

Техн. подстиль

Техн.-экон. подстиль

Научно-деловой подстиль

Учебно-научный подстиль

Научно-справочный подстиль

Научно-популярный подстиль

М

о

н

о

г

р

а

ф

и

и

С

т

а

т

ь

и

 

Д

и

с

с

е

р

т

а

ц

и

и

О

б

з

о

р

ы

О

п

и

с.

о

т

к

р

ы

т

и

й

П

р

о

е

к

т

н.

д

о

к.

Т

е

х

н.

д

о

к.

О

п

и

с.

и

з

о

б

р.

П

л

а

н.

д

о

к.

С

т

а

т.

д

о

к.

К

л

а

с

с

и

ф

и

к

а

т

о

р

ы

О

р

г.

д

о

к.

Р

а

с

п

р

е

д.

д

о

к.

С

п

р

а

в.-

и

н

ф.

д

о

к.

У

ч

е

б

н

и

к

и

С

л

о

в

а

р

и

Т

е

з

а

у

р

у

с

ы

Э

н

ц. 

и

с

п

р

а

в.

Р

е

ф

е

р

а

т

ы

А

н

н

о

т

а

ц

и

и

П

р

о

м.

к

а

т

а

л

о

г

и

И

н

с

т

р

у

к

ц

и

и

Р

е

к

л.

м

а

т

е

р

и

а

л

ы

Н

а

у

ч.-

п

о

п.

п

р

о

и

з

в.

П

р

о

и

з

в.

и

з

д.

Стандарт.

 

 

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

 

+

Рекоменд.

+

+

+

+

+

 

 

+

 

 

 

 

 

+

 

+

+

+

+

+

 

+

+

+

+

Нестандарт.

+

+

+

 

+

 

 

+

 

 

 

 

 

 

 

 

 

 

+

+

 

 

+

+

 +

Кроме того, весьма сложной задачей даже для эксперта в области терминоведения является классифицирование слов в особой функции по их категориям: общенаучная лексика, общеспециальная нетерминологическая лексика, общеспециальная терминология,  общеотраслевая терминология, терминология частных областей.

3 Терминированность, обусловленная контекстом, который не всегда может быть распознан автоматическими системами (ср.: вода – тяжёлая вода).

4 Отсутствие максимально глубокой семантической разметки термина, развивающего свои лингвистические характеристики, особенно это заметно в обновляющихся терминологиях (компьютерные технологии, электроника, связь ect.).

Корпусные данные (www.ruscorpora.ru) по терминам и данные, предоставляемые различными терминологическими банками, к сожалению, опираются на собственные текстотеки, которые могут использоваться в учебном процессе лишь отчасти, не в полной мере, а имеющиеся частотные словари (Алексеев П.М. Частотный англо-русский словарь по электронике. – М., 1971; Тер-Мисакянц З.Т. Частотный словарь математической лексики. – Ереван, 1973; Денисов П.Н., Морковкин В.В., Сафьян Ю.А. Комлпексный частотный словарь русской научной и технической лексики. – М., 1978) не являются словарями-минимумами, более того – лексический состав многих из них требует обновления. Единственным, пожалуй, исключением на сегодня является частотный англо-русский словарь по оптоэлектронике и лазерной технике Щаповой И.А. (2011).

Таким образом, в области автоматизации компилирования учебного словаря-минимума технических терминов на основе закрытого массива текстов больше проблем, чем готовых оптимальных решений, несмотря на стремительный взлёт компьютерной лингвистики в последнее десятилетие.



[1]Кудашев И.С. Проектирование переводческих словарей специальной лексики. – Хельсинки, 2007. – С. 172.

[2]Лейчик В.М. Опыт построения классификации терминологических словарей // Теория и практика научно-технической лексикографии. – М., 1988. – С.4.

[3]Pius  tenHacken. What is a Dictionary? A View from Chomskyan Linguistics // International Journal of Lexicography. Volume 22, issue 4, 2009. – P.399-421.

[4]Stricker S. Glossary-Vocabulary-Dictionary and the Question of their Differentiation // Sprachwissenshaft. Volume 36, issue 2-3, 2011. – P.115-144.

[5]Abecassis M. The Ideology of the Perfect Dictionary: How Efficient Can a Dictionary Be? // Lexicos. Volume 18, 2008. – P.1-14.

[6]Гринёв-Гриневич С.В. Введение в терминографию. Как быстро и легко составить словарь. – М., 2009. – С.10.

[7]Susniene D., Vibrickaite R. Toward a Systematic Dictionary: Compiling a Glossary of  Terms // International Conference on Nation and Language “Nation and Language: Modern Aspects of Socio-Linguistic Development Proceedings”, 2008. – P.110-114.

[8]Deny Armos Kwary. A Hybrid Method for Determining Technical Vocabulary // System. Volume 39, issue 2, 2011. – P.175-185.

[9]Трибис Л.И. Об одной модели распознавания лексических значений неоднозначных слов. В кн.: Статистика речи и автоматический анализ текста. – М., 1972. – С.131.

[10]Квитко И.С., Лейчик В.М., Кабанцев Г.Г. Терминоведческие проблемы редактирования. – Львов, 1986. –С.47.

[11]Там же. С.75.

0
Your rating: None Average: 5.2 (9 votes)
Comments: 13

Sobko Roman

Как отмечают авторы, создание словаря - очень трудоемкое задание. Тем более, определить минимум слов наиболее часто используемых. Именно для упрощения решения таких задач могут интегрированно использоваться информационно-комуникационные технологии. Например, на филологическом факультете изучается программирование и ставится задача: составить программу, которая считает количество самых коротких слов в предложении. Мне кажется, такая задача тоже может быть полезной в составлении словаря-минимума.

Panfilova Alvina

04.02.2013 - Panfilova Alvina Уважаемые коллеги. Благодарю вас за очень интересную, высокопрофессиональную информацию, которая позволяет расширить диапазон знаний читающего. Не являясь специалистом в вашей проблеме, на бытовом уровне отмечу, мне как специалисту по коммуникации совершенно очевидно, что слова наносят ущерб как на уровне взаимодействия, так и на уровне взаимопонимания. Особенно наш русский язык в этом смысле столь многогранен и многозначен, что чаще возникают казусы, чем наоборот. Поэтому работа связанная с совершенствованием лексикона и тезауруса, с созданием словарей, облегчающих взаимопонимание, позволяющих меньше тратить времени на поиск информации и при обращении находить то, что нужно - это очень нужная и полезная поддержка всех, кто учится и кто учит. Спасибо огромное. Успеха вам в дальнейшем поиске решений. С уважением, Альвина Павловна. Санкт-Петербург.

Igropulo Irina Fedorovna

Уважаемые авторы! Благодарю вас за возможность расширить свои представления на основе изучения вашей статьи. Не являясь специалистом в автоматизации составления учебного словаря-минимума, тем не менее, могу отметить ясность вашего исследовательского замысла, четкую логику изложения материала, корректные ссылки, оптимальное количество иллюстраций. Особенно мне понравилась ваша реакция на комментарии, что свидетельствует о вашей заинтересованности в проблеме, в том, как она воспринимается читателями. Я желаю Вам новых успехов и интересных идей.

Smirnova Yulia G.

Огромное искреннее спасибо!

Sanosyan Khachatur Avetis

Уважаемая Юлия. Проблема разработки электронных словарей различной направленности является одним из современных прикладных проблем. Ваша работа, вклад в копилку решения накопивших проблем "в области автоматизации компилирования учебного словаря-минимума технических терминов на основе закрытого массива текстов". Желаю удачи в дальнейших исследованиях.

Fedina Volodimira

Дякуємо за Вашу статтю! Ви займаєтесь дуже хорошою і практичною справою, яка є дуже актуальному на сучасному етапі розвитку як інформаційних технологій, так і в контексті налагодження полікультурного діалогу.

Smirnova Yulia G.

Дякуемо!

Bondar Irina Aleksandrovna

Интересная идея, но хотелось бы побольше узнать о технической стороне реализации подобного словаря. Как от качества построения семантического ядра сайта, от используемых методов поисковой оптимизации будет зависеть качество (это при множественности ссылочных перенаправлений) и количество извлечения терминов из массива инет-контента сайта?

Smirnova Yulia G.

Спасибо за интерес к идее. Но еще больший интерес у Вас наверняка появится, если вы ознакомитесь с подробной технической реализацией технологии создания семантического ядра, а также концептуальным проектированием программного обеспечения на его основе, описанного в монографии на русском языке. Эта книга доступна здесь: https://www.ljubljuknigi.ru/store/ru/book/Технология-создания-информационно-обучающих-систем/isbn/978-3-659-32055-2 Очень трудно было четырехлетний труд изложить в статье, учитывая специфические подходы и методы. Поэтому было принято решение публикации аналитической статьи на данную тему. Если в вкратце, то, как известно, поисковая оптимизация применяется для поднятия позиций сайта в результатах выдачи поисковых систем по определенным запросам пользователей. В формировании словаря-минимума учитывается популярность web-источника (исходного текста) и определяется вес извлеченного термина. Именно поэтому множественность ссылочных перенаправлений не оказывает большого влияния. Качества построения семантического ядра сайта и используемые методы поисковой оптимизации не зависят от количества извлечения терминов из массива инет-контента сайта, а зависят от объема научно-технического текста и распределения в нем терминов.

Bondar Irina Aleksandrovna

То что ищется в контенте это понятно, здесь именно сторона инет-реализации заинтересовала (в локальных ресурсах для подобной разработки пишется скрипт, а в основе закладывается определенная логика, например, я использовала для полиграфического словаря, который нужен был для InDesign, логику предикатов, скрипт писала на С#). А тут интересно узнать у Вас как у разработчиков интересного и полезного продукта, не будет ли возникать эффекта искусственного преумножения веса извлеченного термина из-за множественности ссылочных перенаправлений, ведь если одинаковый текст встречается 2 раза (объём искусственно увеличен), то и вес термина будет увеличен тоже, или не так? П.с: дело в том, что мы недавно переделывали сематинческое ядро, переписывали перенаправление сейчас в рамках SEO (в дальнейшем и для SEF заодно), разрабатываем своё расширение- глоссарий вот и заинтересовал данный момент.

Skljar Natalija Aleksandrovna

Здравствуйте! Большое спасибо за детальный ответ на наш поставленный вопрос! С уважением. авторы!

Skljar Natalija Aleksandrovna

Уважаемые авторы! Работа заслуживает должного внимания. Действительно когда проводится работа по поиску необходимых терминов, то появляются определенные сложности в поиске и обработки полученных результатов, т.к. некоторые понятия возможны к применению в различных областях деятельности и имеют некоторые отличия в значении. В вашей статье представлена "общая модель автоматизации составления учебного словаря-минимума на основе извлечения терминов из определенного массива текстов", включающая три системы алгоритма поиска, одна из них, система кеширования результатов, которая предполагает запись куда-либо промежуточных или вспомогательных результатов работы, чтобы не вычислять их каждый раз, когда они понадобятся. Это ускоряет работу, но требует дополнительной памяти (оперативной или дисковой). Недостаток кэширования заключается в том, что изменения внесенные на одном браузере могут не сразу отражаться в другом браузере, в котором данные берутся из кэш-памяти. Скажите пожалуйста как влияет данная система на оперативность поиска терминов и обработки полученных данных из научно-технического текста при использовании ее в интернете со всех трех поисковых систем при получении равноправных результатов? Спасибо, с уважением ,авторы!

Smirnova Yulia G.

Добрый день, многоуважаемые коллеги! Спасибо за интерес к нашему исследованию и за вопрос, связанный с техническими подробностями. Во-первых, мы полностью согласны с недостатком кеширования, который заключается в том, что изменения, внесенные на одном браузере, могут не сразу отражаться в другом браузере, в котором данные берутся из кэш-памяти. Но в нашей статье речь идет не о кэшировании интернет-страниц, а о кешировании запросов MySQL (см. http://dev.mysql.com/doc/refman/5.0/en/myisam-key-cache.html, http://dev.mysql.com/doc/refman/5.0/en/server-system-variables.html). Помимо этого, общеизвестно, что количество обращений к поисковым системам в день ограничено. А мы используем ресурсы 3-х поисковых систем, и обращение к ним происходит одновременно. При многопользовательском обращении к словарю для уменьшения загрузки канала и увеличения допустимо возможного количество обращений к 3-м системам поиска используется кеширование результатов запросов.
Comments: 13

Sobko Roman

Как отмечают авторы, создание словаря - очень трудоемкое задание. Тем более, определить минимум слов наиболее часто используемых. Именно для упрощения решения таких задач могут интегрированно использоваться информационно-комуникационные технологии. Например, на филологическом факультете изучается программирование и ставится задача: составить программу, которая считает количество самых коротких слов в предложении. Мне кажется, такая задача тоже может быть полезной в составлении словаря-минимума.

Panfilova Alvina

04.02.2013 - Panfilova Alvina Уважаемые коллеги. Благодарю вас за очень интересную, высокопрофессиональную информацию, которая позволяет расширить диапазон знаний читающего. Не являясь специалистом в вашей проблеме, на бытовом уровне отмечу, мне как специалисту по коммуникации совершенно очевидно, что слова наносят ущерб как на уровне взаимодействия, так и на уровне взаимопонимания. Особенно наш русский язык в этом смысле столь многогранен и многозначен, что чаще возникают казусы, чем наоборот. Поэтому работа связанная с совершенствованием лексикона и тезауруса, с созданием словарей, облегчающих взаимопонимание, позволяющих меньше тратить времени на поиск информации и при обращении находить то, что нужно - это очень нужная и полезная поддержка всех, кто учится и кто учит. Спасибо огромное. Успеха вам в дальнейшем поиске решений. С уважением, Альвина Павловна. Санкт-Петербург.

Igropulo Irina Fedorovna

Уважаемые авторы! Благодарю вас за возможность расширить свои представления на основе изучения вашей статьи. Не являясь специалистом в автоматизации составления учебного словаря-минимума, тем не менее, могу отметить ясность вашего исследовательского замысла, четкую логику изложения материала, корректные ссылки, оптимальное количество иллюстраций. Особенно мне понравилась ваша реакция на комментарии, что свидетельствует о вашей заинтересованности в проблеме, в том, как она воспринимается читателями. Я желаю Вам новых успехов и интересных идей.

Smirnova Yulia G.

Огромное искреннее спасибо!

Sanosyan Khachatur Avetis

Уважаемая Юлия. Проблема разработки электронных словарей различной направленности является одним из современных прикладных проблем. Ваша работа, вклад в копилку решения накопивших проблем "в области автоматизации компилирования учебного словаря-минимума технических терминов на основе закрытого массива текстов". Желаю удачи в дальнейших исследованиях.

Fedina Volodimira

Дякуємо за Вашу статтю! Ви займаєтесь дуже хорошою і практичною справою, яка є дуже актуальному на сучасному етапі розвитку як інформаційних технологій, так і в контексті налагодження полікультурного діалогу.

Smirnova Yulia G.

Дякуемо!

Bondar Irina Aleksandrovna

Интересная идея, но хотелось бы побольше узнать о технической стороне реализации подобного словаря. Как от качества построения семантического ядра сайта, от используемых методов поисковой оптимизации будет зависеть качество (это при множественности ссылочных перенаправлений) и количество извлечения терминов из массива инет-контента сайта?

Smirnova Yulia G.

Спасибо за интерес к идее. Но еще больший интерес у Вас наверняка появится, если вы ознакомитесь с подробной технической реализацией технологии создания семантического ядра, а также концептуальным проектированием программного обеспечения на его основе, описанного в монографии на русском языке. Эта книга доступна здесь: https://www.ljubljuknigi.ru/store/ru/book/Технология-создания-информационно-обучающих-систем/isbn/978-3-659-32055-2 Очень трудно было четырехлетний труд изложить в статье, учитывая специфические подходы и методы. Поэтому было принято решение публикации аналитической статьи на данную тему. Если в вкратце, то, как известно, поисковая оптимизация применяется для поднятия позиций сайта в результатах выдачи поисковых систем по определенным запросам пользователей. В формировании словаря-минимума учитывается популярность web-источника (исходного текста) и определяется вес извлеченного термина. Именно поэтому множественность ссылочных перенаправлений не оказывает большого влияния. Качества построения семантического ядра сайта и используемые методы поисковой оптимизации не зависят от количества извлечения терминов из массива инет-контента сайта, а зависят от объема научно-технического текста и распределения в нем терминов.

Bondar Irina Aleksandrovna

То что ищется в контенте это понятно, здесь именно сторона инет-реализации заинтересовала (в локальных ресурсах для подобной разработки пишется скрипт, а в основе закладывается определенная логика, например, я использовала для полиграфического словаря, который нужен был для InDesign, логику предикатов, скрипт писала на С#). А тут интересно узнать у Вас как у разработчиков интересного и полезного продукта, не будет ли возникать эффекта искусственного преумножения веса извлеченного термина из-за множественности ссылочных перенаправлений, ведь если одинаковый текст встречается 2 раза (объём искусственно увеличен), то и вес термина будет увеличен тоже, или не так? П.с: дело в том, что мы недавно переделывали сематинческое ядро, переписывали перенаправление сейчас в рамках SEO (в дальнейшем и для SEF заодно), разрабатываем своё расширение- глоссарий вот и заинтересовал данный момент.

Skljar Natalija Aleksandrovna

Здравствуйте! Большое спасибо за детальный ответ на наш поставленный вопрос! С уважением. авторы!

Skljar Natalija Aleksandrovna

Уважаемые авторы! Работа заслуживает должного внимания. Действительно когда проводится работа по поиску необходимых терминов, то появляются определенные сложности в поиске и обработки полученных результатов, т.к. некоторые понятия возможны к применению в различных областях деятельности и имеют некоторые отличия в значении. В вашей статье представлена "общая модель автоматизации составления учебного словаря-минимума на основе извлечения терминов из определенного массива текстов", включающая три системы алгоритма поиска, одна из них, система кеширования результатов, которая предполагает запись куда-либо промежуточных или вспомогательных результатов работы, чтобы не вычислять их каждый раз, когда они понадобятся. Это ускоряет работу, но требует дополнительной памяти (оперативной или дисковой). Недостаток кэширования заключается в том, что изменения внесенные на одном браузере могут не сразу отражаться в другом браузере, в котором данные берутся из кэш-памяти. Скажите пожалуйста как влияет данная система на оперативность поиска терминов и обработки полученных данных из научно-технического текста при использовании ее в интернете со всех трех поисковых систем при получении равноправных результатов? Спасибо, с уважением ,авторы!

Smirnova Yulia G.

Добрый день, многоуважаемые коллеги! Спасибо за интерес к нашему исследованию и за вопрос, связанный с техническими подробностями. Во-первых, мы полностью согласны с недостатком кеширования, который заключается в том, что изменения, внесенные на одном браузере, могут не сразу отражаться в другом браузере, в котором данные берутся из кэш-памяти. Но в нашей статье речь идет не о кэшировании интернет-страниц, а о кешировании запросов MySQL (см. http://dev.mysql.com/doc/refman/5.0/en/myisam-key-cache.html, http://dev.mysql.com/doc/refman/5.0/en/server-system-variables.html). Помимо этого, общеизвестно, что количество обращений к поисковым системам в день ограничено. А мы используем ресурсы 3-х поисковых систем, и обращение к ним происходит одновременно. При многопользовательском обращении к словарю для уменьшения загрузки канала и увеличения допустимо возможного количество обращений к 3-м системам поиска используется кеширование результатов запросов.
PARTNERS
 
 
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
Would you like to know all the news about GISAP project and be up to date of all news from GISAP? Register for free news right now and you will be receiving them on your e-mail right away as soon as they are published on GISAP portal.