<<
>>

Материалы и методы

По исследованиям омега-3 ПНЖК в базе данных MEDLINE обнаруже­но более 30,000 публикаций. Переработка такого количества материала не представляется практически возможной без разработки и использования точных и обоснованных критериев отбора публикаций, наиболее релевант­ных (т.е.

наиболее приемлемых или «интересных») для целей проводимого анализа. Хорошо известно, использование специфических ключевых слов значительно сужает поле поиска и зачастую приводит к потере ценной био­медицинской информации (Torshin, 2007). Ниже, приводится краткое опи­сание математического аппарата, использованного для высокоточного по­иска научной литературы.

Системы машинного обучения оперируют со множествами прецеден­тов, представляющих собой материал обучения алгоритма. Отдельный прецедент состоит из описания признаков, свойств объекта, подлежащего классификации и информации о принадлежности этого объекта к опреде­ленным классам объектов. Классы принадлежности объектов, как правило, задаются экспертом в проблемной области. Если, например, прецедент - это абстракт определенной статьи по медицине, то его признаками яв­ляются входящие в абстракт медицинские термины, а классами - уста­новленные экспертом рубрики этого абстракта, такие как «доказательная медицина в неврологии», «молекулярные механизмы омега-3 ПНЖК» и т.д. В простейшем случае, все элементы множества прецедентов могут быть отнесены экспертом к одному из двух классов: «имеющие отношение к изу­чаемому вопросу» (класс К1) или «не имеющие отношения к вопросу» (класс

к,).

Очевидно, что если один и тот же прецедент отности одновременно к К1 и К0, то такое множество прецедентов - противоречиво и задача не имеет точного решения, т.е. неразрешима. Поэтому, современная алгебраичес­кая теория распознавания основана на ключевых понятиях «разрешимос­
ти» и «регулярности» задач классификации (Журавлёв Ю.И., 1978; Рудаков

К.В., 1987). Под разрешимостью задач понимается непротиворечивость множеств прецедентов (т.е. существования решения у задачи), а под ре­гулярностью - сохранение разрешимости в определенной окрестности поставленной задачи. Анализ условий разрешимости и регулярности явля­ется фундаментальным для решения задач классификации и, в настоящем случае, для решения задачи поиска. В случае задачи поиска наиболее ре­левантных публикаций, условие разрешимости этой задачи записывается следующим образом:

У рк'-рк(ЛЛ) = Рк-2)

V к=1 У

где Рг - множество всех текстовых прецедентов, а (Л11), (Л22) - произвольные прецеденты. В прецеденте (Л,К) А обозначает полное признаковое описание текстового прецедента (т.е.

абстракт, полный текст статьи, аннотация итд), К - класс, к которому принадлежит прецедент (К1 или К0), Р - множество всех значений признаков, найденных в прецедентах из Рг, рк(Л) - значение к-го бинарного признака из Рв прецеденте (Л,К)

к(Л) =1, признак содержится в прецеденте А, 0 в противном случае).

В общем случае, множество Р избыточно в том смысле, что содержит признаки или значения признаков, которые не являются необходимыми для решения задачи. Применяя эвристические функции оценки качества признаков, на множестве Р можно ввести линейный порядок что, в свою очередь, позволяет устанавливать множества признаков с максимальной информативностью (Рудаков К.В., Торшин И.Ю., 2010; Рудаков К.В., 2010). С учетом информативности признаков, условие (1) записывается как кри­терий разрешимости на линейно-упорядоченном множестве значений при­знаков:

(2) У(г,]А * ]):Кг * К ^3Рк ^ тт: Рк(Л) * Рк(Л)

р р

Принимая во внимание очевидное требование, которое можно сфор­мулировать как «абстракт имеет отношение к теме тогда и только тогда, когда он содержит соответствующие ключевые термины» (например, «оме­га-3 ПНЖК», «аритмия», «фибрилляция» и др), записываем критерий (2) в следующей форме:

(2) у (1,9',1 * ]): Л 6 К1,Л 6 К 0 ^3 Рк ^ тп-. рк(Л ) > Рк(Л)

р р

Комбинаторное тестирование условия (2) на множестве прецедентов и лежит в основе использованного метода отбора наиболее релевантных публикаций. В целом, алгоритм выглядит следующим образом. (А) Эксперт отбирает публикации (абстракты) из множества всех имеющихся публика­ций. (Б) Все просмотренные абстракты образуют множество прецентов, отнесенных экспертом либо к К1 («имеет отношение к теме») либо к К0 («не относится к теме»). (В) В абстрактах отсеиваются общезначимые слова (в английском тексте, артикли, частицы, общие термины и т.д.) и проводится тестирование (2’) и устанавливаются наиболее информативные значения признаков (специальных терминов или «ключевых слов»). (Г) Проводится

новый поиск литературы с использованием установленных наборов ключе­вых слов.

В тестировании (2, 2’) важно принимать во внимание, что некоторые признаки могут быть избыточны, так как встречаются в устойчивых сочета­ниях слов (например, «фибрилляция предсердий»), семантически связан­ных терминов (например, «аритмия» и «фибрилляция») и др. Анализ этих взаимодействий терминов (перекрывание областей значений признаков) необходим для корректной формулировки запросов при поиске научной литературы. Для произвольного класса К, взаимодействие /-го и /-го тер­минов оценивается как коэффициент корреляции r(/, j):

(3) r(,,j) =\T, n Tjl/I T и j

где T = {A e K:p(A) = 1}, Tj = {A e K : Pj(A) = 1} . Затем про­водится кластеризация всех терминов-признаков (с использованием как параметра кластеризации либо порогового значения r(i, j), либо выражен­ности сгущений в метрических пространствах), «наиболее взаимодейству­ющие» термины объединяются и условие (2) тестируется уже на объеди­ненных признаках в зависимости от параметра кластеризации.

Используя различные комбинации этих наиболее информативных тер­минов, был проведен полный поиск среди 30,000 публикаций по омега-3 ПНЖК и был установлен список из 72 репрезентативных публикаций, рас­сматриваемых ниже более подробно.

<< | >>
Источник: Торшин И. Ю., Громова О. А.. Экспертный анализ данных в молекулярной фармаколо- Т61 гии. - М.: МЦНМО, 2012- 747 с.. 2012

Еще по теме Материалы и методы:

  1. Материалы и методы исследования
  2. Часть XII. СПРАВОЧНЫЕ МАТЕРИАЛЫ
  3. Игровые строительные материалы
  4. БИОЛОГИЧЕСКИЕ МАТЕРИАЛЫ ДЛЯ ИССЛЕДОВАНИЙ
  5. Аналитический и синтетический учет движения материалов
  6. Варианты меток и материалов для твердой фазы
  7. Строй-материалы: витамины и минералы
  8. В наше время не существует никаких барьеров, препятствующих разрушению сырых материалов
  9. Коллектив авторов. Новые материалы для медицины / Коллектив авторов Екатеринбург: УрО РАН2006, 2006
  10. Традиційні методи контрацепції. Бар’єрні методи контрацепції
  11. Методи підготовки вагітних до родів. Медикаментозні методи підготовки вагітних до родів
  12. Разрабатываемые методы
  13. Функциональные методы