Аналитика - научно-технический журнал - Аналитика - Популярность химических соединений. О чем это?

Выпуск #6/2020

Б. Л. Мильман, И. К. Журкович
Популярность химических соединений. О чем это?

Загрузить полную PDF-версию статьи (3217 Кб)

Просмотры: 2595

DOI: 10.22184/2227-572X.2020.10.6.464.469

В статье рассмотрена статистика популярности химических соединений – частота их встречаемости в современных химических базах данных. Эти данные отражают относительное значение тех или иных химических соединений в научных исследованиях и практической деятельности человека, их распространенность в природе и искусственных объектах. Популярность соединений можно оценивать по ее различным статистическим показателям, которые связаны с конкретными базами данных. Обсуждаемые характеристики используются в быстро развивающейся области аналитики – нецелевом анализе.

Теги: databases mass spectrometry non-target analysis popularity statistics базы данных масс-спектрометрия нецелевой анализ популярность статистика

Б. Л. Мильман, д. х.н., И. К. Журкович, к. х. н.

Статья поступила в редакцию 20.09.2020
Статья принята к публикации 15.10.2020

Некоторые проблемы
современной аналитики
В органическом (биоорганическом) анализе существует обширное направление, называемое нецелевым анализом или анализом проб неизвестного состава [1–3]. Главная задача нецелевого анализа – идентификация отдельных неизвестных (неизвестных аналитику или данной лаборатории) компонентов анализируемых проб. Такие определяемые соединения называют также известными неизвестными [4]. В образном выражении указанная задача представляет собой поиск точек в глобальном химическом пространстве. Методология рассматриваемой области аналитики постоянно совершенствуется, что обусловлено появлением новых высокоэффективных приборов (хромато-масс-спектрометры) и успехами хемоинформатики (новые алгоритмы, программы и базы данных (БД), широкие сетевые возможности).

Неизвестные соединения идентифицируют, регистрируя их масс-спектры и сравнивая полученные данные со справочными масс-спектрами, содержащимися в электронных спектральных библиотеках; хорошее совпадение может означать положительную идентификацию. Полезно также использовать хроматографические параметры, такие как времена удерживания для данной хроматографической колонки в заданных условиях анализа или, что более универсально, индексы удерживания – его характеристики в относительном выражении (относительно известных реперных соединений). Совпадение результатов, полученных двумя рассмотренными методами, означает уверенную идентификацию, которая становится максимально надежной, если находится соответствующий аналитический стандарт (вещество сравнения), который дает неотличимые масс-спектрометрические и хроматографические данные. Но так бывает далеко не всегда.

Очень частый случай – неоднозначная идентификация, то есть совпадение характеристик нескольких соединений вследствие естественной близости их свойств или в результате неточных измерений. Перебирая аналитические стандарты и анализируя их совместно с пробой неизвестного состава, можно, в конечном счете, прийти к достаточно полной идентификации. Но это может быть сложная и дорогостоящая процедура. Иногда требуется проверка нескольких стандартов для каждого аналита, и непонятно, в какой последовательности это следует делать. Правильный результат найдется нескоро, что предполагает ненужное приобретение дорогостоящих высокочистых соединений. Более того, подходящих аналитических стандартов просто может не быть, их придется синтезировать.

Информационный подход к проблеме
Решение проблемы неоднозначной идентификации может быть облегчено при помощи метаинформации – так называют априорную информацию о химических соединениях, известную до аналитического эксперимента [1–3]. Метаинформация – это, во‑первых, физико-химические, биологические, токсикологические и др. свойства и характеристики известных химических соединений. Во-вторых, имеются в виду численные данные, характеризующие сам факт упоминания данного соединения в научной статье, отчете или патенте, в современном варианте – в электронной БД, в которой собрана информация из разрозненных ее источников (других БД). Чем больше таких источников информации, тем больше оснований считать, что мы имеем дело с популярным соединением, представленным в работах многих авторов, а не с редким веществом.

Химические соединения – популярные и распространенные
Популярные соединения можно также назвать распространенными; термины «популярный» и «распространенный» похожи, хотя и не полностью синонимичны. Первое слово означает внимание химиков и других специалистов к тем или иным соединениям, выраженное в их частом упоминании в публикациях и электронных материалах. Второй термин означает частую встречаемость не только в сфере информации, но и материальном мире, представленном анализируемыми пробами природных и искусственных веществ. Здесь мы не будем разделять эти термины, они связаны: широко распространенные соединения часто обнаруживаются, что находит свое отражение в информационных сводках.

Химики предложили количественные меры популярности / распространенности химических соединений. Вначале следовали аналогии с системой литературных ссылок и, в поисках «высокоцитируемых» соединений, оценивали частоту их упоминания в различных публикациях, то есть число публикаций, упоминающих то или иное соединение [1–3]. По мере прогресса информатики такие оценки делали уже по БД, отражающим научную литературу (библиографические БД) и конкретные сведения о химических соединениях и веществах (фактографические БД) [1, 4, 5].

Источники данных и показатели популярности
Наиболее крупными современными химическими БД, к которым имеется свободный доступ, являются ChemSpider [6] (Королевское Химическое общество, Великобритания) и PubСhem [7] (Национальный центр биотехнологической информации, США). Эти базы данных содержат разнообразные сведения о 78 и 102 млн индивидуальных соединений соответственно (лето 2020 года, наши оценки). О популярности рассматриваемых объектов, основываясь на БД ChemSpider, можно судить по числу соответствующих источников информации (других БД), упоминающих те или иные химические соединения. Эти показатели популярности выявляются для большинства соединений и поэтому наиболее удобны для оценки популярности / распространенности [5]. Что касается литературных источников, то конкретные ссылки приводятся для малой доли соединений. Тем не менее, при поисках молекул, имеющих ту или иную брутто-формулу или массу, можно найти общее количество ссылок (еще один показатель) на соответствующие соединения; эти оценки получены несколько лет тому назад.

Распределение химических соединений по показателям популярности позволяет дифференцировать популярные и редкие соединения. Пример для рассматриваемой БД и количества источников информации как показателя показан на рис. 1. График отражает вполне очевидный факт, что популярных веществ (присутствуют во многих источниках информации) гораздо меньше, чем редких (единичные источники), причем по мере роста популярности доля соответствующих соединений падает. Так, около 60% соединений упоминаются лишь в одной БД, около 20% – в двух и т. д. (рис. 1). Такого рода зависимости (здесь степенная функция) называют распределениями Ципфа [8], они типичны для человеческой деятельности, социальной сферы, например для распределения населения по доходам.

Необходимо заметить, что для физических и физико-химических свойств атомов, молекул и других объектов естественных наук типичны гауссовы (нормальные) распределения – колоколообразные, с максимумом, функции при неких средних значениях аргумента.

С другой стороны, рис. 1, представляющий объекты химии и информацию о них, показывает негауссову кривую. Это, на наш взгляд, логично: главная роль принадлежит здесь человеческому фактору. Популярность / распространенность обсуждаемых объектов определяется, в конечном счете, людьми – самими химиками и другими специалистами. Они устанавливают строение молекул, присутствие веществ в природных источниках и искусственных смесях и, в итоге, научную и практическую значимость различных химических соединений.

Используя распределения, пример которых показан на рис. 1, нетрудно оценить долю распространенных и редких соединений. Последние, как мы видим, представляют собой основную часть множества химических объектов. Условимся, что их доля составляет 95%; в естественных науках с такой вероятностью часто определяют границы основных значений той или иной переменной. Если исходить из этого, то легко установить по нашим статистическим данным, что редкие соединения встречаются не более чем в пяти несовпадающих источниках информации. К распространенным объектам, соответственно, относятся соединения, которые можно найти в пяти и более источниках информации. Доля этой части химического пространства – 5% соединений (несколько миллионов).

Что на вершине?
25 наиболее популярных соединений по данным ChemSpider указаны в табл. 1. Почти все – биологически важные соединения: звенья биополимеров, метаболиты, участники биосинтеза, лекарственные соединения. Статистика в очередной раз показывает доминирование наук о жизни в современных научных исследованиях. Заметим, что их тематика смещает акценты в оценке популярности химических соединений: в приведенный список наиболее популярных химических объектов не входит вода – наиболее распространенное соединение на земле, а также углеводороды – компоненты газа и нефти, несмотря на их многочисленные месторождения. В списке лидеров по рассматриваемой версии (табл. 1) также нет неорганических соединений, многие из которых, однако, охвачены этой БД.

Если проводить поиск популярных соединений по БД PubСhem (по определению сфокусированной на биохимической тематике), то в результате будут представлены те же группы биосоединений, хотя отдельные их представители могут занимать другие места в рейтинге популярности. Как бы то ни было, большинство из 25 популярных соединений, перечисленных в табл. 1, входят в узкую группу наиболее распространенных молекул (0,003% от общего количества), также выявленных по числу источников информации в БД PubСhem. Кстати, такой же высокий рейтинг найден здесь у некоторых биологически важных неорганических соединений, например солей натрия. Необходимо также сказать, что различные показатели популярности – общее количество информации (выраженное в PubСhem размером справки о данном соединении в относительных единицах, отн. ед.), количество ее источников, число статей и патентов и др. – дают, в какой-то степени, коррелирующие, но, в целом, различные рейтинги, даже в рамках одной БД. Общий итог, тем не менее, одинаков – доминирование многих классов биосоединений.

В табл. 1 представлены преимущественно довольно «старые» соединения; многие известны десятилетиями. Иногда полезно выявить новые распространенные вещества, связанные с последними трендами развития науки. В этом случае целесообразно изучать показатели соединений, недавно попавших в БД и имеющих, следовательно, последние (наибольшие) регистрационные номера.

Идентификация и популярность
Продемонстрируем на примере (табл. 2), как представления о различной распространенности химических соединений могут быть использованы в определении неизвестных аналитику соединений.

Задача: химику необходимо узнать природу неизвестного ему соединения. Зарегистрирован его масс-спектр Х (рис. 2), который похож на справочные спектры нескольких углеводородов (библиотека масс-спектров NIST 05): а – массовые числа основных сигналов одни и те же, б – показатели сходства со справочными спектрами довольно высоки (от 830 до 926 при максимуме 999). Попробуем проверить первую из версий, что этот аналит – углеводород пристан (№ 1, табл. 2), компонент нефти биологического происхождения, из терпенов. Действительно, масс-спектр пристана более всего похож на спектр неизвестного соединения по формальному показателю сходства. Далее, пристан оказывается наиболее популярным из всех кандидатов на идентификацию – по трем показателям (табл. 2). Поэтому, если в лаборатории найдется аналитический стандарт пристана или просто достаточно чистый образец, то его масс-спектр, а также пик на газовой хроматограмме очень вероятно совпадут с соответствующими данными для рассматриваемого неизвестного аналита. И это пример убедительной идентификации.

Представления о популярности / распространенности химических соединений важны при открытии новых значимых природных соединений, например лекарственных веществ. Обычно же в смесях растительного происхождения, содержащих потенциальные лекарства, доминируют хорошо известные соединения, давно обнаруженные и охарактеризованные по мере развития химии и смежных наук. Задача современного исследователя состоит в дерепликации – быстрой идентификации известных соединений и исключении их из рассмотрения (в т. ч. удаления из смесей) [9]. Базы данных, информирующие о популярных химических веществах, способствуют решению этой задачи.

* * *
Итак, наша статья рассказывает о «неравенстве» в мире химических соединений (химическом пространстве). Одни соединения широко распространены в природе, производятся / синтезируются в больших масштабах, играют значительную роль в биологических процессах и / или интересны с иной научной точки зрения. Таких соединений – меньшее число, но о них много информации в химических БД. Их сравнительно легко установить, определив значения показателей популярности – числа источников информации, размера информационной справки и др. Эти данные весьма полезны в нецелевом химическом анализе, поскольку распространенные химические соединения – основные компоненты анализируемых образцов. Даже если интересны минорные / редкие компоненты смесей, мажорные составляющие должны быть установлены в первую очередь (дерепликация).

Литература
Milman B. L., Zhurkovich I. K. The chemical space for non-target analysis / / TrAC Trends in Analytical Chemistry. 2017. Т. 97. С. 179–187.
Мильман Б. Л. Введение в химическую идентификацию. CПб: ВВМ, 2008.
Milman B. L. Chemical identification and its quality assurance. Berlin: Springer, 2011.
Little J. L., Williams A. J., Pshenichnov A., Tkachenko V. Identification of “known unknowns” utilizing accurate mass data and ChemSpider // Journal of the American Society of Mass Spectrometry. 2012. Т. 23. № 1. С. 179–185.
Мильман Б. Л., Островидова Е. В., Журкович И. К. Большие химические базы данных свободного доступа в нецелевом масс-спектрометрическом анализе // Масс-спектрометрия. 2020. Т. 17. № 2. С. 87–94.
ChemSpider. URL: http://www.chemspider.com. (дата обращения: 22.07.2020).
PubChem. URL: https://pubchem.ncbi.nlm.nih.gov. (дата обращения: 24.07.2020).
Хайтун С. Д. Проблемы количественного анализа науки. М.: Наука, 1989.
Hubert J., Nuzillard J. M., Renault J. H. Dereplication strategies in natural product research: How many tools and methodologies behind the same concept? // Phytochemistry Reviews. 2017. Т. 16. № 1. С. 55–95.
References
Milman B. L., Zhurkovich I. K. The chemical space for non-target analysis // TrAC Trends in Analytical Chemistry. 2017. V. 97. P. 179–187.
Milman B. L. Introduction to chemical identification // VVM: Saint Petersburg, 2008.
Milman B. L. Chemical identification and its quality assurance. Berlin: Springer, 2011.
Little J. L., Williams A. J., Pshenichnov A., Tkachenko V. Identification of “known unknowns” utilizing accurate mass data and ChemSpider // Journal of the American Society of Mass Spectrometry. 2012. V. 23. No. 1. P. 179–185.
Milman B. L., Ostrovidova E. V., Zhurkovich I. K. Big free-access chemical databases in non-target mass spectrometry analysis // Mass Spectrometry. 2020. V. 17. No. 2. P. 87–94.
ChemSpider. URL: http://www.chemspider.com.
PubChem. URL: https://pubchem.ncbi.nlm.nih.gov.
Khaytun S. D. Issues of qualitative analysis of science. Moscow: Nauka, 1989.
Hubert J., Nuzillard J. M., Renault J. H. Dereplication strategies in natural product research: How many tools and methodologies behind the same concept? // Phytochemistry Reviews. 2017. V. 16. No. 1. P. 55–95.

Аналитика. Выпуск #6/2020

Отзывы читателей

Оставить свой отзыв

Аналитика. Выпуск #6/2020