Главная » Статьи » Обнаружено четыре тысячи новых белковых семейств

Обнаружено четыре тысячи новых белковых семейств

Sberro et al., / Cell 2019

Исследователи из США провели сравнительное исследование 1773 человеческих метагеномов и обнаружили около четырех тысяч белковых семейств, большинство из которых не были ранее описаны из-за своего небольшого размера, затрудняющего идентификацию. Около тридцати процентов найденных белков оказались вовлечены в межклеточные взаимодействия, сообщается в статье в журнале Cell.

Открытие коротких белков длиной меньше 50 аминокислот сопряжено с трудностями. При аннотации нового генома — разметке на его последовательности положений имеющихся генов — короткие последовательности обычно игнорируются. Это происходит из-за того, что шанс принять случайный участок генома за настоящий ген слишком велик. Коротких белков мало в базах данных, и из-за этого поиск новых последовательностей по сходству с ранее открытыми работает плохо. Более того, даже если найдутся короткие похожие участки, то доказать, что это гомологи (родственные последовательности), а не случайные совпадения, тоже сложно. Протеомные методы вроде масс-спектрометрии в данном случае тоже не работают из-за отсутствия таких белков в базах данных. Между тем те белки, которые удалось обнаружить, обладают зачастую интригующими свойствами — например, помогают межклеточной коммуникации.

Новое исследование показало, что уже известные маленькие белки составляют лишь малую часть от реального числа. Используя комбинацию генетических данных из открытого доступа Хила Сберро (Hila Sberro) из Стенфорда и ее коллеги нашли и описали около четырех тысяч белковых семейств, большинство из которых оказались новыми и не имели родственников в имеющихся базах данных. В качестве ресурса они использовали 1773 человеческих метагенома из Human Microbiome Project. В них нашли абсолютно все потенциальные открытые рамки считывания, а затем применили последовательно ряд фильтров, чтобы оставить только искомые последовательности. Для начала их отфильтровали их по длине так, чтобы транслируемый белок не превышал 50 аминокислот, а затем собрали в кластеры по сходству и убрали те, в которых было меньше восьми потенциальных белков. Это отсекло значительную часть случайных последовательностей, но после этого исследователи дополнительно прогнали оставшиеся последовательности через программу, которая умеет вычленять кодирующие последовательности из общей массы на основании эволюционных подписей, а заодно проверили последовательности на наличие сайта для посадки рибосомы, необходимого для трансляции белка. В результате такой фильтрации осталось всего 4539 кластера, каждый из которых отвечал за отдельное белковое семейство.

Большая часть найденных белковых семейств оказалась ранее неизвестной: при сравнении с базами данных всего для 190 семейств нашлись достаточно похожие последовательности в базе доменов, и примерно для четверти вообще нашлись аннотированные гомологи. Как уже говорилось выше, стандартные методы не заточены на выявление коротких белков, так что авторы предположили, что многие из них были пропущены при аннотации геномов и именно поэтому число найденных гомологов невелико. Чтобы это обойти это, они заново переаннотировали геномы в базе данных, сняв ограничение по размеру рамки считывания, а затем повторили поиск. Благодаря этому ходу они нашли гомологи еще для 27 процентов белковых семейств, но по-прежнему около половины белковых семейств осталась без привязки к уже известным генам.

Чтобы окончательно увериться в подлинности найденных генов, исследователи проверили, идет ли с них синтез белка. Для этого они использовали метатранскриптомные данные — по аналогии с обычными транскриптомами они содержат последовательности активных генов, но не для одного организма, а сразу для всех обитателей образца. Выяснилось, что 75 процентов тех генов, у которых нашлись гомологи в метатранскриптомах, оказались активны. Кроме того, для генов, принадлежащих бактерии Bacteroides thetaiotaomicron, удалось показать, что у 40 процентов найденных в нем гомологов идет не только синтез РНК, но и белка.

На следующем этапе исследователи попытались выяснить, что делают эти белки. Поскольку для большинства так и не нашлось гомологов с известными функциями, сделать это, распространив функцию уже известного родственника на искомый белок, было невозможно. Тем не менее, им удалось выделить из общей массы консервативные широко распространенные белки домашнего хозяйства, местоспецифичные белки, характерные, например, только для метагеномов ротовой полости или только кишечника, а заодно нашли один новый рибосомальный белок. Отдельно ученые выделили белковые семейства, в последовательностях которых нашелся траснмембранный домен и секреторная метка — знак того, что этот белок используется не внутри клетки, а снаружи. Таких оказалось около тридцати процентов и исследователи считают, что те участвуют во взаимодействии между клетками. Еще одна распространенная группа белков, которые удалось обнаружить благодаря специфическому строению последовательностей — белки-защитники бактерий от фагов.

Все это говорит о том, что важность коротких белков сильно недооценена. Из-за неудобства работы с ними и сложностей с определением стандартными методами они сильно недопредставлены в базах данных, тогда как на самом деле их довольно много и они играют не последнюю роль в жизни клеток. Это удалось показать благодаря грамотной обработке метагеномных данных, в которых содержится информация о последовательностях ДНК не одного вида, а сразу многих — в идеале всех — которые были в образце, в том числе и не описанных ранее. Такое «богатство» метагеномных данных позволяет использовать их не только для поиска новых белков, но и для предсказания их трехмерных структур.

Вера Мухина