Современная электронная библиотека ModernLib.Net

Аналогия

ModernLib.Net / Биология / Медников Борис Михайлович / Аналогия - Чтение (стр. 4)
Автор: Медников Борис Михайлович
Жанр: Биология

 

 


Далее наш дешифровщик будет стараться найти устойчивые группы, устойчивые сочетания знаков (слова), которым он будет приписывать какой-либо смысл. На этой же стадии выявляется тип языка – имеет ли он флексии, каковы закономерности изменения начал и окончаний слов, и так далее. Теперь, в эпоху компьютеров, подобные работы проводятся относительно быстро – при условии, что исследуемый текст достаточно велик. Этрусский язык, например, до сих пор не расшифрован, потому что в распоряжении исследователей имеются лишь короткие, неинформативные надгробные надписи.

Казалось бы, этот метод вполне подходит для дешифровки текстов на языке ДНК. К сожалению, перед молекулярными биологами встали трудности, неведомые этрускологам.

Еще двадцать лет назад мы практически не умели читать ДНК-тексты. Было известно лишь, что они «написаны» 4-буквенным алфавитом (А, Т, Г, Ц) и что аминокислоты в белках и пробелы между белковыми «словами» кодируются сочетаниями из этих четырех букв по три. Даже сейчас, когда прочитаны уже миллионы этих букв, в распоряжении расшифровщиков нет ни одного достаточно представительного куска сообщения (ведь в геноме человека 3,2 миллиарда букв). И, тем не менее, о структуре наших программ мы знаем уже немало. Молекулярным биологам помогло то, что ДНК – двойная спираль комплементарных друг другу последовательностей. Между собой нуклеотиды в последовательности связаны довольно устойчивыми фосфодиэфирными связями. А сами цепи ДНК в двойной спирали скрепляются так называемыми водородными связями, неустойчивыми уже при высокой (100°) температуре или рН ~ 11. Используя один из этих факторов, ДНК можно разделить на две комплементарные половинки (денатурировать). Если понизить температуру или рН, начинается обратный процесс – ренатурация. Комплементарные половинки находят друг друга и восстанавливают двойные спирали. Денатурируя и отжигая ДНК, предварительно «поломанную» ультразвуком на куски разной длины, исследователи пришли к важнейшим выводам о структуре генетического текста – не прочитав пока ни единой буквы!

Прежде всего, чем более разнородны последовательности в геноме, тем медленнее идет реассоциация, отжиг. Это вполне понятно. Хотя тепловое движение молекул осуществляет миллионы сталкиваний половинок ДНК в секунду, в большой совокупности генов далеко не каждая одноцепочечная ДНК сталкивается с комплементарной половинкой. Грубо говоря, чем больше обуви в прихожей, тем труднее найти башмак под пару.

И сразу ДНК высших организмов, имеющих оформленное ядро, преподнесла сюрприз. Часть ее (до 10%) ренатурировала крайне быстро, как простая, содержащая мало генов ДНК вирусов. Другая (20-30%) – отжигалась медленнее, в зависимости от концентрации многими часами. И, наконец, для отжига, восстановления двойной спирали 60-70% ДНК требовалось несколько суток.

Объяснить этот факт можно было так: в ДНК эукариотных организмов имеются три переходящие друг в друга фракции:

1) Высокоповторяющиеся (до нескольких миллионов раз) последовательности – ВПП. Именно потому, что они представлены сотнями тысяч и миллионами копий, их комплементарные половины быстро находят друг друга при отжиге. Обычно они состоят из коротких единиц, следующих друг за другом тандемом, как вагоны в поезде. Белков они не кодируют, и что они делают в геноме – неизвестно. Высказывались предположения, что именно они ограничивают скрещивание между особями, принадлежащими к разным видам, однако доказать это пока не удалось. Любопытно, что создатель теории «эгоистичной» ДНК Дулиттл не считает их «эгоистами». По его мнению, это «невежественная» ДНК, т. е. такая, которая выполняет пока неясную нам функцию только своим наличием, независимо от содержания. То есть, ВПП нужны в хромосомах как инертный наполнитесь, вроде сахара в лекарственных таблетках.

2) Средние повторяющиеся последовательности (СПП). Число их копий в геноме колеблется от десятков тысяч до сотен тысяч. Между этой фракцией и предыдущей нет резкой границы: например типичный средний повтор ДНК человека Alul представлен в наших геномах 300 тыс. копий и более. На мой взгляд, это самый интересный класс ДНК, позволяющий строить практически неограниченное число спекуляций. Именно СПП, во всяком случае значительную часть их, обвиняют в эгоизме.

3) Наконец, уникальные последовательности (УП). Судя по названию, они представлены в геноме (гаплоидном) только один раз, во всяком случае, не более десяти. Большинство структурных генов, кодирующих белки, относятся к этому классу. Но хотя доля их во фракции очень мала, УП в геномах высших организмов в 10—100 раз больше, чем нужно для того, чтобы записать информацию о всевозможных белках. Что же делают остальные УП?

Часть их удается «пристроить» в качестве так называемых спейсеров-разделителей, разобщающих структурные гены. Но спейсерами бывают и СПП. «Эгоистичными» их тоже назвать нельзя: согласно этой теории гены-эгоисты защищаются от вырезания из хромосом и сохраняют свой состав. К большей части УП обычно применяют термины «мусорная» и «мертвая», иногда «умирающая» ДНК.

Все это далеко не так просто, и вот почему. У ядерных организмов и архебактерий структурные гены имеют сложное строение. Куски ДНК, кодирующие аминокислотные последовательности (экзоны), перемежаются последовательностями, не кодирующими ничего (интронами). При созревании информационной РНК интроны вырезаются специальными ферментами и отбрасываются, а экзоны сшиваются другим ферментом – лигазой в зрелую РНК, на которой может транслироваться белок. Интроны дружно объявили ненужными частями гена – ведь белка они не кодируют! Но этому мешает одно неприятное обстоятельство.

В УП часто встречаются точные копии структурных генов разных белков, но они не содержат интронов. Как они возникают, в общем, неясно. Скорее всего, это ДНК-копии информационных РНК, встроившиеся обратно в геном. Так делают ретро-вирусы, в том числе знаменитый СПИД. Но РНК ретровирусов содержит интроны и, включаясь в геном в виде ДНК, остается активной.

А безинтронные копии генов неактивны. На них не идет синтез РНК, белков они не вырабатывают. Потому их назвали лжегенами – псевдогенами. Что же, получается, что ген теряет активность, если из него вырезать ненужные части?

Но, может быть, в категорию «мусорной» и «мертвой» ДНК следует отнести псевдогены? Так, в общем, считает большинство теоретиков. Экспериментаторы не столь единодушны. Есть факты, которые никак не запихнуть в мешок модной гипотезы.

Возьмем хотя бы ген глобина «дельта». Этот ген активен у низших обезьян Нового Света (широконосых). У более высокоразвитых узконосых обезьян Старого Света, таких как мартышки, макаки, павианы, нет гемоглобина «дельта» – но ген, кодирующий эту форму белка, есть. Однако у него нет интронов, он неактивен и попадает в категорию псевдогенов. Казалось бы, ясно: ген «умер», попал в разряд «мусорных». Однако у человека он обретает интроны и вновь становится активным. Так что же такое псевдогены – свалка мусора или запас на будущее, так сказать «гены в творческом отпуске»?

Есть и более странные факты. Один и тот же ген в мозговой ткани активен и нарабатывает белок. А в почках он же представлен безинтронным псевдогеном.

Полагаю, что нужно воздержаться от преждевременных суждений и бранных эпитетов, пока мы не разберемся до конца в этой сложной ситуации. Думаю, что, пока выйдет в свет эта книга, многое уже будет ясно.

А пока посмотрим, не поможет ли нам, хотя бы в построении гипотез, аналогия с лингвистическими текстами.

Монморенси – последовательность уникальная. Еще 10 лет назад в статьях по структуре генома были модными графики, по которым можно было определить распределение нуклеотидных последовательностей по скорости отжига, реассоциации. На оси абсцисс (ось Х) у них обычно откладывалась не скорость реассоциации, а величина c0t – произведение начальной концентрации денатурированной ДНК на время отжига. А так как эта величина в одном геноме изменяется на пять порядков, давали ее логарифм.

Читается c0t как «це-ноль-тэ», но на лабораторном жаргоне говорили – «кот» («мы отожгли ДНК до ста котов»). Жаргонное словцо хорошо свидетельствует о популярности метода. В самом деле, при равных объемах геномов c0t связано с копийностью (числом повторов) прямой зависимостью.

На оси ординат (ось Y) откладывали процент данной фракции в геноме, только шкала была перевернута.

Эти так называемые кривые кинетики реассоциации сыграли свою роль, да и сейчас часто используются. Вспомнил я о них вот по какой причине. Любой человеческий язык несколько условно можно трактовать как состоящий из двух категорий слов (или частей слов). Первая категория состоит из слов, за которыми стоят какие-то объективные реалии. Это корни существительных, прилагательных и глаголов.

Вторая категория – флексии, предлоги, приставки, артикли, окончания – то, что придает смысл корням, но без них самих смысла не имеет. С другой стороны, один корень без соответствующих «добавок» становится невразумительным. Например, что значит английское слово strike? Не спешите с ответом. The strike – забастовка (существительное). A to strike – бастовать (глагол). Отдельно же взятый артикль ни о чем не говорит, как и частица to.

А если в генетических текстах структурные гены выполняют функцию корней слов первой категории (ведь за ними стоят реалии – аминокислотные тексты белков), а повторы и некодирующие белков УП играют роль слов второй категории? Тогда станет ясно, что они столь же необходимы в ДНК-тексте, как и структурные гены. Попробуйте в разговоре и письме обойтись одними корнями.

Эгоистичность повторов иногда доказывают таким доводом: у вида А такой повтор есть, а у вида Б нет. Значит, он не нужен.

Аналогичное рассуждение: в немецком языке есть артикли, характеризующие род существительного. Родственные артикли в английском превратились в детерминативы существительных (категория рода в английском языке отмирает). А в русском языке артиклей нет вообще, они не нужны. Значит ли это, что они не нужны и в немецком, английском и французском языках?

Вопрос мой явно риторический. Приведу пример из мемуаров французского подводника Ж. Уо. Погружаясь в батискафе с директором биостанции Вильфранш Трегубовым, русским по происхождению, Уо сокрушенно называет его блестящим собеседником, по непонятной причине опускавшим решительно все артикли. Сорок лет прожив во Франции, он так и не привык к ним – по той причине, что в русском языке их заменяют другие вспомогательные слова.

Такие соображения привели меня лет десять назад к идее одного эксперимента (если его можно так назвать). Я взял английский текст (первую главу из общеизвестной книги Д. К. Джерома «Трое в одной лодке…») и на досуге выписал из нее все слова, определив частоту их встречаемости. А затем построил график, аналогичный кривой кинетики реассоциации ДНК – только вместо c0t взял частоту встречаемости слов в тексте.

Получилась довольно наглядная кривая, которую коллеги принимали именно за этот образец. Четко выделились высокоповторяющиеся последовательности (the, a, an, to), средние повторы (in, on, into, – ing). И, наконец, уникальные. Туда же попал и Монморенси – ведь кличка знаменитого фокстерьера встречается в первой главе только один раз.

Почему я взял англоязычный текст? С ним легче работать, легче отстраниться. Сейчас я думаю, что русскоязычный дал бы еще более четкую картину – за счет флексий. Человек, владеющий персональным компьютером, был бы способен на анализ более протяженных и сложных текстов, и аналогия выступила бы еще нагляднее.

Повторяю, аналогия не доказательство, а лишь повод для выдвижения гипотезы (или спекуляции, если хотите). Структурный ген, кодирующий белок, – это только корень слова. Он обретает смысл лишь при взаимодействии с другими последовательностями, которые играют роль вспомогательных слов в языке. Вирусы и отчасти бактерии практически не имеют повторов в своих простых геномах. Их «язык» напоминает, если хотите, тот язык, на котором говорил Тарзан в некогда популярных фильмах. Но закодировать на нем достаточно большой объем информации о построении сложного фенотипа невозможно.

Опираясь на этот нехитрый эксперимент, я мог уже целеустремленно искать в литературе сведения о функциональной роли повторяющихся последовательностей и тех механизмах, которые обеспечивают помехоустойчивость генетических сообщений.

Но это уже другой вопрос, тема следующей главы. До сих пор мы говорили о статике, о структуре генетических сообщений. В следующей главе придется говорить и о динамике, об эволюции генетических текстов – начиная с момента происхождения жизни.

В заключение хочу оговориться. Я отнюдь не считаю все последовательности ДНК функционально значимыми. Подобно тому, как все организмы имеют так называемые рудиментарные органы, ныне бесполезные, но свидетельствующие об их истории, так и их геномы могут содержать реликтовые последовательности, гены-рудименты, не играющие сейчас никакой роли или очень мало значимые. Все дело в количественной оценке феномена. Не только 96%, но и 30% ДНК «мусорной» и «эгоистической» в процессе эволюции в геноме не удержится.

А сейчас перейдем к третьей главе. В начале ее нужно обсудить вопрос: нужен ли господь бог для синтеза первого гена или же, как сказал Лаплас Наполеону, можно обойтись без этой гипотезы?

Глава III.

Есть ли жизнь на Земле?

Оро:…Как сказал один шутник, по теории вероятностей мы все должны были быть мертвецами. Тем не менее, мы живы.

Чаргафф: Но мы все-таки умрем.

Мора: В том-то и беда.

Из дискуссии на Флоридской конференции по происхождению жизни

Там, где вечно дремлет тайна,

Есть нездешние поля.

Только гость я, гость случайный

На горах твоих, земля.

Сергей Есенин

В прошлой главе мы пришли к выводу, что так называемые структурные гены, кодирующие аминокислотные последовательности белков – это лишь, если угодно, корни слов, но не сами слова и тем более не осмысленные предложения. Тем самым вопрос о «лищней» ДНК в значительной мере снимается. Если же мы учтем, что в передаче информации по каналу с высоким уровнем шума код должен быть помехоустойчивым, становится ясной та непонятная щедрость природы, с которой она наделила ДНК наши клеточные ядра. Это не исключает возможности существования в геноме своего рода реликтовых последовательностей, не несущих в настоящее время определенной функции («гены на пенсии или в творческом отпуске»). Но доля их в геноме не может быть значительной, они не должны мешать генам активным, ибо довлеет дневи злоба его.

На уровне построения фенотипа (клеток, тканей, органов) также существуют структуры, для организма в данный период эволюции бесполезные (рудиментарные органы вроде зачаточных тазовых костей у китов и удавов, мышцы, двигающие ушной раковиной у человека, человеческий аппендикс и многое другое).

Аналогичная картина наблюдается и в мемофондах. Мы знаем лишние буквы в алфавите и слова в языках, рудименты старых технологий, обычаев и идеологий. Простой пример: раньше обшлага камзолов отворачивались и пристегивались на пуговицы. Теперь этого нет, но на рукавах каждого пиджака с упорством, достойным лучшего применения, пришивают по три пуговицы. Не столь уж безобидный рудимент, хотя бы для нашей страны. Сколько пиджаков в РФ, статистика не знает, как не знает и числа стульев. Допустим, что каждый гражданин мужского пола имеет хотя бы один пиджак (140 млн.). Это соответствует 840 млн. пуговиц, которые ничего не пристегивают. Без малого миллиард, а ведь это пример безобиднейшего реликта. Несравненно больше вреда «пуговицы на обшлагах» приносят не в технологиях, а в самых консервативных областях мемофондов – обычаях, обрядах, идеологиях. Но об этом у нас еще будет время поговорить.

Сейчас рассмотрим несколько иной аспект проблемы. Существуют ли какие-нибудь связи в последовательности нуклео-тидов – в нуклеотидном «тексте»? И опять начнем с аналогии – рассмотрим лингвистические тексты.

Как вы помните, энтропия на символ русского текста около 5 бит, но при условии, что все буквы одинаково вероятны. Такой текст можно получить, если 32 буквы кириллицы (без различения букв е и ё, ь и ъ, как на телеграфе) написать на бумажках, а затем вытаскивать их из урны, записывать вытянутый символ и возвращать бумажку обратно. Сначала я хотел сделать это сам, но потом решил воспользоваться моделью Р. Л. Добрушина (его примеры цитируются в ряде книг). Вот какая фраза у него получилась:

сухерробьдщяыхвщиюайжтлфвнзагфоенвштцр хгбкучтжюряпчькйхрыс (1)

Как видите, получилось нечто такое, что нельзя и выговорить. Именно такой текст и содержит 5 бит/символ, он наиболее информативен, потому что вероятность появления каждого последующего знака определяется только случаем и всегда равна 1/32. Но мы-то знаем, что в русском тексте разные буквы встречаются с разной частотой. Чаще всего встречается буква «о» (частота 0,090.), но это только в письменной речи. В устной, в московском говоре, где безударное «о» выговаривается как «а» («с Масквы, с пасада, с калашнава ряда»), положение другое[4]. В других языках в фаворитах ходят другие буквы. Вспомните «Золотого жука» Эдгара По – там герой уверенно принимает наиболее часто встречающийся в тексте знак за букву «е». На пергаменте был английский текст, но и в испанском и во французском языке, которыми также пользовались пираты Карибского моря, «е» – чаще всего встречающаяся буква.

Определить частоту встречаемости букв просто, нужно только учитывать характер текста. Буква «ф» в русскоязычных текстах относительно редка (частота 0,002, из согласных чаще всего встречаются «т» и «н») – за исключением математических (за счет таких слов как функция и дифференциал). Лучше использовать средние данные по различным источникам. Оказалось, что с учетом разной частоты встречаемости энтропия на символ уже 4,35 бит. Искусственный «текст» с этими поправками будет выглядеть по Добрушину примерно так:

еынт цияьа оерб однг ьуемлолйк збя енвтша (2)

Как видите, этого приближения явно недостаточно, чтобы случайно подобранная фраза зазвучала по-русски. Мы подходим к важному феномену: наличию связей, корреляций между символами в тексте. В самом деле, не каждая буква может занимать любое место. После пробела никогда не встретится мягкий знак, а «и» – редко, лишь в заимствованных словах (Йорк, йод). Система корреляций между символами оказывается разной у разных языков. Русский язык относится к индоевропейским, в них возможны сочетания нескольких согласных (взвод, встреча, бодрствовать) и закрытые, оканчивающиеся на согласный слоги. А в японском и полинезийском языках гласные и согласные строго чередуются, и закрытых слогов нет. Это хорошо обыграл Г. Мелвил в повести «Тайпи», где герой представляется друзьям-канакам самым простым английским именем Том. Оказалось, что произнести его они не в состоянии. Томи, Томо – пожалуйста.

Но и любая гласная не может появиться после любой согласной. «Я» после «г» в русском языке крайне редка (лишь в заимствованном слове «гяур»), только Марина Цветаева осмеливалась писать – «рвя и жгя».

Добрушин учел корреляции между соседними буквами. Получилась следующая фраза:

умароно кач всванный рося ных ковкров недаре (3)

Энтропия на символ снижается до 3,52 бит, но фразу уже можно прочесть, не запинаясь. Но ведь корреляции касаются не только соседних букв, но и третьих и четвертых за выбранными. Если учтем частоту трехбуквенных сочетаний, будет фраза вроде:

покак пот дурноскака наконепио зне стволовил се твой обниль(4)

В ней уже встречаются вполне русские слова и части слов (энтропия 3,01 бит/символ). С учетом четырехбуквенных сочетаний получается фраза, которую, если ее быстро произнести, можно счесть за русскую:

весел враться не сухом и непо и корко (5)

Ясно, что учет более дальних корреляций приведет к появлению чисто русских слов, в дальнейшем уже и не в бессмысленных комбинациях, а энтропия на символ будет снижаться. Расшифровка поврежденного или закодированного текста «по Паганелю» как раз и связана с учетом корреляций между символами.

А как обстоит дело с символами в нуклеотидной последовательности ДНК или в аминокислотной – белка? Этот вопрос занимал меня давно, еще тогда, когда не был прочтен ни один ген, а за расшифровку первого белка – инсулина Сэнгер получил свою первую Нобелевскую премию. Поэтому я старался каждую появившуюся в литературе последовательность оценить с этой точки зрения. И уже первые результаты смущали и заставляли задуматься.

Вероятность встречи в любом месте одного из четырех символов, слагающих последовательность гена, или одного из двадцати символов, слагающих белок, была пропорциональна только процентному содержанию этого символа в тексте и не зависела от соседних. То есть, генетический текст оказывался построенным согласно модели 2 Добрушина.

Гены – дети случая. С какой-то стороны это меня огорчило. Я надеялся, что системы корреляций, паче чаяния они в нуклеотидных текстах окажутся, будут разными в разных геномах. А это принесло бы пользу новой отрасли систематики – геносистематике, развивающейся на наших глазах. Хороший пример из анализа лингвистических текстов. По-видимому, древнейшая или хотя бы одна из древнейших письменностей Европы – слоговое письмо А догреческого населения острова Крит – пока еще не расшифрована. Мы можем ее читать, но не понимаем языка. Однако мы знаем, что построен он был наподобие японского или полинезийского, в которых гласные и согласные строго чередуются. Греки-ахейцы, взявшие Трою, переняли это письмо и стали писать на нем по-гречески (линейное письмо В). Вряд ли это было удобно: название города Кносс читалось как Ко-но-со, имя богини любви Афродиты – А-по-ро-ти-та, медь (халкос) – ка-ко и так далее. Ведь греческий язык – индоевропейский, в нем согласные могут стоять рядом. В результате новая волна греков-дорийцев, затопившая Элладу, полностью это письмо забыла, и греки были неграмотными, пока не создали свой алфавит на основе финикийского слогового. Но мы теперь знаем, что предшественники греков, пеласги, индоевропейцами, скорее всего, не были. Есть, правда, и другие мнения на этот счет. Интереснейшие соображения о древних, тысячи лет назад отзвучавших языках и давным-давно сошедших с арены истории народах можно высказать, анализируя сочетания символов в письме А.

В случае с ДНК и белками этот перспективный путь для нас, похоже, закрыт. Аналогия между информацией языковой и нуклеотидной не идет до конца. В чем же причина? Рискну высказать спекуляцию, не настаивая на ее справедливости.

Попробуйте вслух прочитать фразу 2, по возможности быстрее, но чтобы было «понятно», чтобы произнесенное соответствовало написанному. Боюсь, что это вам не удастся. А ведь от верно произнесенного слова может зависеть многое, вплоть до жизни.

Поэтому любой язык, усваивая новые слова, стихийно перерабатывает их для лучшего, четкого выговаривания. Результатом этого процесса и является как бы сама собой возникающая связь между символами в тексте, учитываемая Добрушиным система корреляций, в каждом языке своя. Человек, говоря на чужом языке, не усвоенном с раннего детства, лишь с большим трудом избавляется в устной речи от акцента. Ведь акцент – не что иное, как перенесение привычных правил произнесения фонем и их сочетаний в другой язык, для того не приспособленный. Каждый может вспомнить примеры из своей практики. В частности, я с великим трудом привык к московскому говору – на моей родине, на Урале, не «акают», не произносят безударное «о» как «а».

Иное дело с текстами на языке ДНК. Фермент РНК-полимераза, синтезируя на матрице ДНК предшественник информационной рибонуклеиновой кислоты, «произносит» любые сочетания символов. То же можно сказать и о синтезирующей белок системе клетки рибосоме. В результате и текст ДНК, и аминокислотные тексты белков хранят до сих пор черты стохастического, случайного возникновения. Но и здесь есть исключения.

О. Б. Птицын, решая эту задачу, находился в лучших условиях, чем я – у него уже был в распоряжении приличный банк «прочтенных» аминокислотных последовательностей и ЭВМ. И он пришел к четкому выводу: белки – это стохастические (т. е. сконструированные как фраза 2) тексты, лишь впоследствии отредактированные отбором.

Как происходит это редактирование? Возьмем хотя бы ген глобина – белковой части всем известного гемоглобина. В нем, конечно, происходят мутации, приводящие к заменам аминокислотных остатков в конечном продукте. Некоторые из них «портят» белок, он уже не связывает кислород. Носители таких генов нежизнеспособны. Строгий редактор – отбор беспощадно вычеркивает их.

Другие замены почти не нарушают функции гемоглобина. Но поскольку они и не полезны, в популяциях они не распространяются. Генетики их называют «семейными», ибо их можно найти в семьях, образованных потомками предка-мутанта.

Но есть и другие мутации, которые распространяются в популяциях, как степной пожар. Если в том же глобине

Но этот пример (а можно привести немало других) касается белка – химического соединения, участвующего в реакциях, важных для организма и подверженных отбору. Отбор редактирует текст гена в данном случае не прямо, а опосредованно. А может ли он непосредственно влиять на ген, например, повышая точность считывания информации?

Раньше на этот вопрос отвечали отрицательно. Но сейчас появились другие данные, о которых надо рассказать. Для этого вспомним структуру ДНК-текста. Спираль ДНК двойная, она состоит из двух комплементарных друг другу цепей и слагается четырьмя символами: двумя пуринами – аденином и гуанином (А и Г) и двумя пиримидинами – цитозином и тимином (Ц и Т). Пурин в одной цепи всегда присоединяется водородными связями к пиримидину, в другой – А к Т и Г к Ц. Поэтому в двойной спирали сумма всех пуринов равна сумме всех пиримидинов.

А как распределены пурины и пиримидины в одиночной цепи? Если бы распределение было стохастическим, то с частотой 0.5 наугад выбранный нуклеотид оказывался бы, например, аденином или гуанозином. Это тип фразы 2.

Сейчас, когда прочтены уже тысячи генов, проверить это предположение элементарно. Но оно было проверено задолго до того. Химики разработали методы разрушения в ДНК только пуринов или только пиримидинов.

Пурины, например, разрушаются, если мы обработаем ДНК дифениламином в муравьиной кислоте. В результате ген распадается на смесь блоков – кусочков, в которых пиримидины (Ц и Т) повторяются 1,2,3,4 и более раз. И если бы распределение было случайным, моно– и динуклеотиды преобладали бы. На практике применяют так называемый коэффициент сблоченности

Мой коллега по лаборатории им. А. Н. Белозерского, А. Л. Мазин определил коэффициент

Намек на ответ содержится в других работах А. Л. Мазина. Вспомним, что в большинстве известных нам случаев информационная РНК синтезируется только на одной из нитей или цепей ДНК, которую называют смысловой. Вторая, комплементарная нить – антисмысловая. Пуриновому блоку в смысловой цепи соответствует пиримидиновый в антисмысловой (и наоборот).

Исследования показали, что пиримидиновые, состоящие из Ц и Т, блоки имеют тенденцию скапливаться в смысловой цепи. Возникает асимметрия цепей ДНК. Значит, информационная РНК, на которой синтезируется белок, обогащается пуринами (А и Г). Конечно, она не может на 100% состоять из пуринов, ведь тогда в ней нельзя закодировать такие аминокислоты, как фенилаланин, серин, лейцин. Но тенденция явно имеется.

Для объяснения ее А. Л. Мазин вспомнил о старой моей работе с Л. М. Галимовой, в которой мы изучали синтез белков у тутового шелкопряда. Уже первые исследователи передачи генетической информации с гена на белок подметили, что этот процесс (трансляция) подвержен сильным помехам. Рибосомы могут считывать кодоны в матричной, информационной РНК неправильно, и в белок включаются не те аминокислоты. Этот процесс (мисридинг) усиливается при повышенной температуре, подкислении среды, высокой концентрации магния и при действии антибиотика стрептомицина. Собственно, антибактериальный эффект стрептомицина тем и объясняется, что рибосомы стрептококков начинают «врать» при тех концентрациях антибиотика, при которых рибосомы человека остаются еще устойчивыми.

Мы кормили гусеницу шелкопряда листьями шелковицы, смоченными раствором стрептомицина в лошадиной концентрации. Гусеницы ели, линяли, исправно завивали коконы. А кокон состоит всего из двух белков – фиброина и серицина – клейкого вещества, склеивающего фиброиновые нити.

Серицин легко перевести в раствор кипячением – так мы без особых трудов получаем чистейший белок, без примеси других. Гидролизат его можно уже пустить в аминокислотный анализатор. Оказалось, что стрептомицин достоверно изменял состав белка: одних аминокислот становилось больше, других меньше[5]. Первые мы назвали плюс-, вторые минус-аминокислотами.


Оказалось, что эти категории не случайны. Плюс-аминокислоты в матричной (информационной) РНК кодируются в основном пуринами (А и Г), а минус – пиримидинами (Ц и У– уридином, неметилированным тимином, который заменяет Т в РНК). Пурины и пиримидины тоже неоднородны по точности считывания. С учетом литературных данных У в результате неверного прочтения мог быть прочтен рибосомой как Ц, Г, А; Ц – как Г и А; Г– как А, и лишь аденин обычно считывался правильно.


  • Страницы:
    1, 2, 3, 4, 5