Материалы

Как подобрать ключевые слова для улучшения результатов поиска научной статьи



Ключевые слова являются важным средством упорядочения научной информации, что позволяет сэкономить время читателя при первом ознакомлении со статьей, отыскать научную публикацию и определить ее предметную область. Основу алгоритмов выявления похожих научных статей в современных библиотечных системах составляют ключевые слова, отражающие семантическое ядро текстов. Именно ключевые слова (вместе с аннотацией и названием) призваны привлечь внимание читателя к конкретной научной статье, помочь идентифицировать ее в массиве научных публикаций подобной тематики. Кроме того, с помощью ключевых слов редакции могут подобрать редактора статьи и назначить рецензента соответствующего научного направления. Однако значительная часть исследователей недооценивает значение ключевых слов в собственной публикации и (или) не знакома с методиками их отбора. Как следствие, критически уменьшается вероятность того, что статью найдут другие ученые, особенно когда речь идет о публикации малоизвестного ученого. Поэтому статья теряется в потоке научной информации, автор теряет возможность повысить свой уровень цитируемости и популярности среди коллег, а научный журнал – увеличить импакт-фактор.

Впервые ключевые слова в исследовательской публикации были использованы в 1975 г. в научном издании The Journal of Applied Behaviour Analysis. Их важность для поиска научных статей и оценки уровня их цитируемости обосновал М. Кемман, который отмечал, что для ключевых слов следует выбирать не отдельные лексемы, а словосочетания, позволяющие лучше понять контекст и ограничить количество результатов поиска. По мнению Дж. Хартли и Р. Костоффа, ключевые слова выполняют следующие функции:
– позволяют выяснить, содержит ли статья материал, соответствующий научным интересам исследователя;
– предоставляют перечень терминов, который ученый может использовать для поиска публикации аналогичной или смежной тематики;
– помогают библиотекарям и редакторам группировать связанные материалы, например в перечне публикаций в итоговом годовом выпуске;
– предоставляют возможность редакторам и исследователям фиксировать изменения в объекте изучения научной дисциплины;
– связывают частичные научные проблемы с более общими.

А. Раез и Р. Штейнбергер определили практические рекомендации по формированию перечня ключевых слов. Е. Гбур и Дж. Трамбо предложили способы определения эффективных ключевых слов и фраз, в частности: 1) избегать слишком общих терминов; 2) не повторять слов из заголовка; 3) избегать предлогов и сокращений; 4) использовать в качестве ключевых слов имена и фамилии людей только в том случае, когда они являются частью устоявшейся терминологии; 5) использовать варианты терминов; 6) обобщать в ключевых словах сферу применения результатов исследования.

Сравнительный анализ ключевых слов и дескрипторов совершил Г. Вурбий. С. Джуван, Т. Бартол и Б. Бох провели анализ ключевых слов для того, чтобы определить узкие исследовательские проблемы в рамках более широкого научного поля. Они предложили библиометрическую методологию, основанную на анализе ключевых слов и структурировании данных в форме иерархической древовидной системы, которую целесообразно использовать для управления библиографическими базами данных и выяснения исследовательских трендов. А. Бисикало и В. Высоцкая разработали алгоритмическое обеспечение процессов контент-мониторинга для определения ключевых слов русскоязычного текста. А. Ляшко и И. Миклушка проанализировали механизмы выделения ключевых слов как индикаторов предметной области и сделали вывод, что набор ключевых слов – это каталог концептов, вокруг которых формируются основные идеи научного текста.

В то же время Дж. Билл описал многочисленные случаи, когда поиск с помощью ключевых слов может быть неудачным, например, если термины имеют многочисленные синонимы или варианты написания, являются устаревшим либо употребляется в различных науках, к тому же не все понятия можно передать с помощью ключевых слов. По мнению специалистов, наиболее релевантные результаты получают при условии, что ключевые слова упорядочены по иерархии.

Несмотря на значительный интерес ученых к данной проблематике, до сих пор не хватает практических установок для авторов, которые бы помогли им корректно формулировать наборы ключевых слов к публикациям, избегая формализма в этом недооцененном в отечественных условиях этапе работы над обнародованием результатов научных исследований.

Большинство отечественных статей содержат ключевые слова из заголовков, что нецелесообразно, ведь эти лексемы автоматически попадают в поиск, тогда как функция ключевых слов – сопровождать информацию, приведенную в названии. Также известно, что отечественные ученые предпочитают однословные ключевые слова, а не фразы.

Вместе с тем следует отметить, что отечетвенные научные журналы обычно не содержат рекомендаций по формированию перечней ключевых слов, а только инструкции по их количеству и оформлению. Ни один из журналов не предлагает готовых списков ключевых слов, из которых автор может выбрать те, которые касаются его статьи. С одной стороны, чтобы эффективно определить особенности исследования, автор должен самостоятельно выбирать ключевые слова, с другой – мировая практика доказывает, что отдельные авторитетные международные научные журналы (например, Science Communication) позволяют авторам выбрать ключевые слова из готовых баз, что упрощает работу редакции по обработке материалов и предотвращает публикации статей, не относящихся к тематике издания.

Предлагаем такой алгоритм определения ключевых слов для научных публикаций:

1. Выделить три или четыре ключевые понятия в рамках тематики исследования.

2. Сформулировать название статьи.

3. Подобрать несколько ключевых слов к каждому из ключевых понятий. Это могут быть синонимы, широкие или узкие термины и т. п. При этом можно воспользоваться онлайновыми сервисами: Jason Davies Word Cloud Generator, Wordle, Tag Crowd, Tagxedo, которые создают облака из самых употребляемых в тексте слов.

4. Выбрать ключевые слова из каждой группы, которые наиболее полно отражают содержание статьи, учитывая требования журналов по их количеству и форме представления. При этом можно воспользоваться таким ориентировочным алгоритмом: 25% ключевых слов должны охватывать широкий контекст исследования («читательская аудитория»), 25% – часто используемые в тексте статьи («популяризация науки»), 25% – те, что указывают на результаты исследования («рост читательского интереса»), обобщают потенциальное практическое применение его результатов; 25% – менее частотные слова из уже отобранных. Советуем использовать максимум ключевых слов, а если редакция предоставляет ограничения, то ограничиваться верхней, а не нижней цифрой диапазона. Несмотря на то, что терминологическая синонимия нежелательна в научной литературе, следует использовать термины-синонимы, по которым потенциальный читатель может искать публикации; если в статье рассматривается проблема определенного региона, то как одно из ключевых слов следует привести название этого региона.

5. Осуществить поиск по ключевым словам перед подачей статьи, чтобы выяснить, выдает ли поисковая система на эти запросы подобные материалы. Вместе с тем следует проанализировать, какие ключевые слова обычно используют в публикациях по теме исследования в ведущих мировых наукометрических базах, например, ScienceDirect издательства Elsevier (Scopus).

6. Наконец следует обратить внимание на оформление перечней ключевых слов. Первое слово списка целесообразно подавать со строчной буквы, а ключевые слова и словосочетания следует разделять между собой запятыми, ведь в библиотечных и поисковых системах ключевые слова разделяют именно они, а не точка с запятой.

В целом результаты исследования свидетельствуют о низком уровне осведомленности отечественных ученых относительно значения ключевых слов и принципов их отбора для сопровождения научной публикации. Многие ученые делают такие типичные ошибки при составлении перечня ключевых слов: используют избыточное количество общих лексем; приводят слова из названия как ключевые; предпочитают однословные лексемы словосочетаниям (как следствие, поисковики выдают много лишних результатов). Автор научной статьи должен осознавать, что ключевые слова призваны упростить онлайновый поиск публикаций, а значит, каждый раз целесообразно анализировать, по каким ключевым словам искал бы подобные публикации читатель. Предлагаемый алгоритм должен помочь ученым в подборе ключевых слов, которые бы способствовали результативному поиску статей в сети. Итак, среди способов повышения поисковой эффективности ключевых слов и фраз выделим следующие: 1) ограничение употребления общих терминов; 2) использование синонимичных конструкций; 3) обобщение в ключевых словах сферы применения результатов исследования, потенциального практического внедрения его результатов и т. п.