[과학기술뉴스 제6호] 알파폴드, 인공지능이 일으킨 생명과학 혁명: 그 뒤에 보이지 않는 과학사회의 피, 땀, 눈물(강범창)
ESC 과학뉴스선정 특별위원회가 준비한 과학기술뉴스를 선보입니다. 쏟아져 나오는 수많은 과학기술 논문과 관련 뉴스 중에서 함께 사유하고 고민하고 싶은 이야기들을 선정하고 재구성했습니다. 즐겁게 읽고 의미있는 논의로 발전하는 계기가 되기를 바랍니다. 알파폴드(AlphaFold), 인공지능이 일으킨 생명과학 혁명: 그 뒤에 보이지 않는 과학사회의 피, 땀, 눈물 강범창 (서울대학교 물리화학전공 박사과정) 지난해 10월 4일, 구글 딥마인드(DeepMind)는 ‘Protein complex prediction with AlphaFold-Multimer’라는 논문을 발표하였습니다.[1] 인공지능을 이용하여 단백질 분자의 구조를 밝히는 것은 물론 단백질 사이의 상호작용까지 예측하겠다는 말입니다. 이것은 2020년 12월, 단백질 구조 예측 계의 월드컵이라 할 수 있는 CASP (Critical Assessment of protein Structure Prediction) 14회 대회에서 발표된 결과로, 전 세계 학계를 놀라게 했던 알파폴드2(AlphaFold2)의 후속 연구입니다.[2] 단백질 ‘분자’의 구조를 아는 것은 왜 중요할까요? 화학에는 ‘분자의 성질은 분자의 구조가 결정한다’는 말이 있습니다. 따라서 단백질 ‘분자’의 3차원 구조는 생명현상의 기본이며, 그들 사이의 상호작용이 생명현상의 근간을 이룹니다. 근육, 각종 효소, 생체신호 수용체 등이 단백질로 이루어져 있으며, 단백질 구조를 알면 노화, 암, 유전병 등의 질병이 왜 생기는지 그리고 세균/바이러스에 어떻게 감염되는지에 대한 메커니즘을 밝힐 수 있습니다. 이는 좋은 치료제 및 예방 백신 등을 만드는 데 중요한 정보를 제공합니다. 실제로 처음으로 단백질 구조를 밝혀내 1954년 노벨 화학상을 수상한 라이너스 폴링(Linus Pauling)에 이어 여러 사람들이 중요한 단백질 구조를 밝히고 노벨상을 받았습니다.[3] 단백질 구조를 넘어 상호작용 문제를 풀려고 하는 딥마인드의 앞날이 아주 궁금해지는데요. 이번 기사에서는 지금까지 구글이 문제를 풀어 온 과정과, 과학사회가 쌓아 온 자산들이 그 과정에 어떤 기여를 했는지, 그리고 앞으로의 전망에 대해 이야기해 보려 합니다. 출처: biorxiv.org 출처: nature 과학사회가 일군 땅에서 알파폴드는 구글 딥마인드가 만든 2016년 3월 이세돌을 꺾고 세상을 놀라게 한 알파고(AlphaGo)의 다음 Alpha 시리즈입니다. Fold는 그림 1처럼 화학 원리에 의해 구조가 ‘접히면서(folding)’ 단백질 분자 구조가 만들어지기 때문에 붙여졌습니다. (그림 1) 알파폴드가 ‘단백질 접힘’ 문제를 풀었다고 이야기하기도 하지요. 알파폴드가 세상에 처음 나온 것은 2018년 여름 CASP 13회 대회였습니다. 그때는 A7D라는 이름으로 참여했죠.[4] 그림 1. 단백질 접힘 앞서 단백질계의 ‘월드컵’이라고 말씀드렸던 CASP 대회는 단백질 구조를 실험없이 컴퓨터 계산만으로 맞추는 대회로, 1994년 처음 시작되어 짝수 해마다 열리고 있고 수많은 물리화학자, 생화학자, 생물리학자, 생물정보학자, 전산학자들이 참가합니다. 실험으로 밝혀졌지만 아직 논문으로 세상에 발표되지는 않은 구조들을 문제로 출제하는, 즉 ‘블라인드 테스트’입니다. 연구자들은 ‘우리가 이러이러한 구조들을 잘 맞췄으니 이 방법이 좋은 것이다’라고 주장합니다. 그럴 일은 없어야겠지만, 연구자의 실수 혹은 의도로 부정행위가 일어날 수 있죠. CASP은 그런 걱정 없이 전 세계 연구인들이 자웅을 겨룰 수 있습니다. 이러한 ‘믿을 수 있는’ 블라인드 테스트는 과학에도, 연구자들 하나하나의 발전에도 큰 도움을 줍니다. 자신들의 부족한 부분을 확인하고, 서로의 생각과 의견을 효율적으로 주고 받을 수 있죠. 다른 사람들이 내놓은 좋은 것을 자신의 것에 적용해 시너지가 날 수도 있습니다. 신뢰할 수 있는 좋은 생각들은 빨리빨리 퍼져나가게 됩니다. 이렇게 단백질 분자 구조에 대한 연구는 전 세계에 있는 많은 연구자들의 피, 땀, 눈물과 함께 CASP이라는 대회, 아니 대회를 넘어 한 사회의 도움을 얻어 발전해 왔습니다. 알파폴드가 이렇게 빠르게 세상을 놀라게 한 데에는 CASP 같은 과학사회의 기여가 아주 큽니다. 알파폴드는 딥러닝을 바탕으로 합니다. 딥러닝은 사람의 신경계를 흉내내서 만든 인공신경망 가운데 하나로 신경망이 깊기 때문에 아주 많은 컴퓨터 자원이 필요합니다.[5] 또한 문제가 명확하게 잘 정의되어 있어야 좋은 성능을 보여줄 수 있습니다. ‘정답’이 있는 문제일 때는 매우 잘 정리되고 데이터 양이 많은 데이터베이스도 필요합니다(바둑은 정답이 없는 문제죠). 이 데이터베이스로 딥러닝 ‘모델'을 ‘학습'시켜야 하니까요. 또한 문제를 지배하는 원리나 법칙에 대한 정보가 많을 수록 좋습니다 (바둑은 모든 규칙이 다 알려져 있고 단순하지만 단백질은 그렇지 않습니다). 그동안 많은 연구자들의 노력으로 이러한 조건들이 채워져 왔습니다. CASP이 진행되면서 문제들이 아주 잘 정의되고, 많은 이론/계산 화학자들이 단백질 접힘을 일으키는 많은 물리화학적(physico-chemical) 원리들에 대한 이해를 높였습니다. 2012년에는 이런 물리화학적 원리를 연구하던 계산화학자들이 노벨 화학상을 타기도 했고요.[6] 라이너스 폴링이 X선을 이용하여 알파나선 구조를 밝힌 뒤로 많은 실험 과학자들이 X선, 핵자기공명(Nuclear Magnetic Resonance, NMR) 그리고 최근에 떠오르는 저온전자현미경(Cryo-EM)을 이용하여 많은 단백질 구조들을 밝혀내 단백질 데이터 은행(Protein Data Bank, PDB)를 구축하였습니다. 여기에는 PDB라는 단일 포맷으로 18만 개가 넘는 단백질 구조가 저장되어 있습니다. (그림 2) 단백질의 아미노산 서열 역시 요즘 빠른 속도로 쌓이고 있습니다. 단백질 정보가 저장되어 있는 DNA가 차세대 염기서열 분석(next generation sequencing, NGS)에 의해 폭발적으로 늘어남에 따른 결과입니다. 구조 정보들과 서열 정보들은 알파폴드에서 중요하게 쓰입니다. 이처럼 알파폴드는 과학사회가 일구어 놓은 땅에서 꽃을 피우고, 열매를 맺었습니다. 그림 2. 2021년 12월 31일까지 PDB에 쌓인 단백질 구조 갯수 실제로 알파폴드 프로젝트의 가장 핵심 인물이자 논문의 1저자이자 교신저자인 이론화학자 존 점퍼(John Jumper) 박사는 CASP13, CASP14 참가 당시 “그동안의 CASP community의 헌신 덕분에 이런 좋은 성과를 얻을 수 있었다”고 말했습니다. 참고로 존 점퍼 박사는 <Time>지에서 2021년 떠오르는 리더-혁신가(2021 Time 100 Next)로 선정한 바 있습니다. 알파폴드는 각각 1993년과 2020년 노벨 화학상을 받은 중합효소 연쇄반응(polymerase chain reaction, PCR)과 CRISPR-Cas9과 비견될 만한 업적이기 때문에 가까운 미래에 노벨상 수상을 예상하여 선정되었을 것이라고 추측해 봅니다. 그림3. 존 점퍼 박사와 글쓴이. 강범창 제공. 인공지능 기법의 도움으로 어떻게 알파폴드는 나타난 지 몇 해만에 인류의 숙제를 풀 수 있었을까요? 단백질은 서열이 비슷하면 구조도 비슷합니다. 그래서 단백질 데이터 은행에 실험적으로 밝혀져 있고 서열이 비슷한 단백질 구조가 있다면 그 구조를 주형(template) 삼아 거기서 구조 정보들을 가져와서 쓸 수 있습니다. 단백질의 진화 과정에서는 3차원 공간에서 가까이 있는 아미노산들끼리 같이 바뀌는 경향이 있습니다. 두 아미노산 사이에 상호작용이 많기 때문에 같이 바뀌는 것이고, 상호작용이 많으려면 가까이에 있어야 합니다. 수많은 단백질들에서 두 아미노산이 같이 바뀌는 것이 반복되면, 그 두 아미노산은 가깝게 있다고 볼 수 있습니다. 이를 보통 아미노산의 공진화(co-evolution)라고 부릅니다.[7] 특정 두 아미노산이 가깝다는 정보 역시 구조를 예측하는 데 아주 도움이 많이 되는 정보입니다. 그럼 AI는 이런 정보들을 어떻게 가져다 쓸까요? 알파폴드의 AI 기법들은 다른 분야에서 아주 잘 쓰이던 기법들입니다. 2018년에 나온 알파폴드1은 서열 공진화 정보만 사용합니다.[4] 공진화 정보를 찾을 때에는 2차원 합성곱 신경망(2-Dimensional convolution neural network, 2D-CNN)의 한 종류인 잔차 신경망(ResNet)을 기반으로 합니다.[8] 잔차 신경망은 페이스북이나 인스타그램 등에서 자동으로 얼굴을 태그해주는 것처럼 원래 이미지 인식을 할 때 쓰던 딥러닝 기법입니다. 알고 싶은 단백질이 N개의 아미노산으로 되어 있다면, N*N개의 픽셀을 가진 그림이라고 가정하는 것이지요. 이 그림을 거리 히스토그램이라고 합니다. 그림 4는 40개의 아미노산을 가진 단백질을 예로 든 것입니다. 그림 4. 40개 아미노산으로 이루어진 단백질 gHEEE_02 의 거리 히스토그램[8] 알파폴드2는 단백질 데이터 은행의 단백질 구조 정보까지 사용해 정확도를 올리려고 했습니다. 거기에 알파폴드1에서 쓰던 잔차 신경망 대신 이보다 더 최신 기법이며, 딥러닝 분야에서 가장 핫한 알고리즘인 주의집중(attention), 어텐션 기법을 도입하였습니다. (그림 5)[9] 주의집중 기법은 구글 번역기, 파파고 등의 언어 번역프로그램이나 24시간 고객응대를 해야 하는 챗봇을 만들 때처럼 자연어(한국어, 영어, 독일어 같은 사람이 쓰는 언어) 처리를 할 때 많이 사용합니다. 우리가 말을 주고 받거나 글을 읽고 쓸 때도 더 집중해야 하는 부분이 있는 것처럼 서열이나 구조 중에서도 더 중요한 역할을 하는 곳에 ‘집중’해서 정보를 가져오겠다는 뜻입니다. 그림 5. 알파폴드2 알고리즘.[2] 위 쪽에서는 서열 정보, 아래 쪽에서는 구조 정보를 쓰는 것을 알 수 있다. 신뢰할 만큼의 정확도로 그렇다면 이 알파폴드2는 무슨 의미가 있고, 과학기술과 우리 삶에 어떤 혁명을 가지고 올까요? 왜 ‘실험 없이’, ‘인공지능으로’ 단백질을 구조를 밝히는 것이 이렇게 큰 주목을 받고 있는지부터 살펴 봐야 합니다. 실험으로 단백질 구조를 밝히는 데는 크게 두 가지 어려움이 있습니다. 하나는 실험 자체의 한계로 구조를 밝힐 수 없는 단백질이 훨씬 많습니다. 또한, 비용과 시간이 아주 많이 듭니다. 가장 많이 쓰이는 X선 분광학은 그림 6-1에서 보듯 유전 증폭, 단백질 발현, 정제, 결정화, 회절 데이터 얻기, 데이터 해석 등 여러 과정을 거쳐야 합니다. 각 과정을 거치면서 실패가 누적되어 구조가 밝혀지는 것은 대락 1.3 % 정도입니다. 그래서 그림 6-2처럼, 실험으로 밝혀진 서열 숫자에 비해 실험으로 밝혀진 구조의 숫자는 0.5 %도 되지 않습니다. 하지만 알파폴드는 서열만 있으면 거의 모든 구조를 밝힐 수 있습니다. 그림 6-1. 실험적 단백질 구조 결정의 단계별 성공율 그림 6-2. 2012년까지 실험으로 밝혀진 단백질 서열과 구조의 수 그동안 많은 연구자들이 실험 없이 컴퓨터만으로 구조를 밝히는 연구를 해 왔지만, 정확도가 신뢰할 만큼 높지는 않았습니다. 알파폴드는 CASP 14회 대회에서 신뢰할 만한 수준의 정확도로 인정을 받았습니다. 그림 7을 보면 알파폴드2가 2위 팀에 비해 두 배 이상 높은 점수로 1위를 차지했음을 볼 수 있습니다. 총 110개의 단백질 구조 문제 중에서 전체적인 모양을 맞췄다고 볼 수 있는 GDT-TS 70점을 넘는 것이 96개, 그중에서도 원자 수준까지 맞출 수 있다고 보는 GDT-TS 90점이 넘는 것이 51개가 있었습니다. 단백질 구조 예측 분야의 게임체인저라 불리울 성과입니다. 그림 7. CASP 14 단백질 3차구조 예측 순위. 왼쪽에서 첫번째가 알파폴드로, 2위 팀에 비해 점수가 두 배 이상임을 알 수 있다. 생명현상의 메커니즘을 밝히다 글 처음에, 단백질의 구조를 알면 생명현상의 메커니즘을 밝힐 디딤돌이 된다고 했는데요, 알파폴드의 등장으로 알 수 있는 단백질 구조의 수가 몇천 배 이상 늘어났다고 볼 수 있습니다. NGS가 나타난 뒤로 하루하루 쌓이고 있는 단백질 서열들을 대부분 구조로 만들 수 있는 것입니다. 이로써 생명현상에 대한 한 차원 더 높은 이해가 가능해졌습니다. 생명공학 관점에서 봐도 무한한 가능성이 열린 셈입니다. 우선 신약 개발이 각광을 받고 있습니다. 여러 다국적 제약회사들은 관련 전공자들을 채용하기 시작했고, 관련 스타트업도 우후죽순처럼 생기고 있습니다. 단백질 디자인도 한 단계 업그레이드될 것입니다. 단백질의 구조는 기능을 결정합니다. 만약 세상에 내가 원하는 기능을 하는 단백질이 없다면, 인공지능을 사용해 새로운 서열과 구조로 된 단백질을 만들 수 있습니다. 단백질 효소를 디자인해서 새로운 재료를 만드는 세상이 가까워지고 있습니다. 알파폴드에 대해서 비판도 꽤 많았습니다. 알파폴드1은 소스코드를 공개하지 않아서, 다른 연구자가 재현할 수 없다는 점에서 무척 아쉬웠습니다. 또한 뒤에 구글이라는 엄청난 자본을 가진 배경이 있었기 때문에 다른 학계에 있는 연구자들이 쓸 수 없는 컴퓨터 자원으로 딥러닝 모델을 학습시킬 수 있었다는 것을 지적하는 사람들도 많습니다. 이런 비판을 의식해서인지, 아니면 혁명을 더 빠르게 나아가게 하기 위해서인지, 구글 딥마인드는 알파폴드2의 소스코드를 공개했습니다. 누구나 쓰고, 자신의 연구 목적에 맞게 고칠 수 있게 되었습니다. EMBL-EBI에서는 직접 예측한 44만 개의 단백질 구조들을 공개하기도 했습니다. 2021년 한 해 동안 알파폴드2를 사용한 논문이 1천여 편 이상 발표되었고, 대표적으로 COVID-19 속 단백질 연구가 알파폴드2를 통해 이루어졌습니다.[10][11] 알파폴드가 일으킨 혁명이 앞으로 어떤 성취를 가져올지, 우리 삶 구석구석으로 스며들고 있는 인공지능이 화학과 생명과학계에는 또 어떤 지각변동을 일으킬지 기대해 봅니다. 참고문헌 [1] Evans, Richard, et al. "Protein complex prediction with AlphaFold-Multimer." Biorxiv (2021). [2] Jumper, John, et al. "Highly accurate protein structure prediction with AlphaFold." Nature 596.7873 (2021): 583-589. [3] Danilova, V. M., R. P. Vynogradova, and S. V. Komisarenko. "The contribution of nobel prize laureates to research of the protein structure: J. sumner, j. northrop, w. stanley, l. pauling, f. sanger, m. perutz, j. kendrew." The Ukrainian Biochemical Journal 92.4 (2020): 127-153. [4] Senior, Andrew W., et al. "Protein structure prediction using multiple deep neural networks in the 13th Critical Assessment of Protein Structure Prediction (CASP13)." Proteins: Structure, Function, and Bioinformatics 87.12 (2019): 1141-1148. [5] LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. "Deep learning." nature 521.7553 (2015): 436-444. [6] Karplus, Martin, Michael Levitt, and Arieh Warshel. "The nobel prize in chemistry 2013." Nobel Media AB 2014 (2013). [7] Fares, Mario A., and David McNally. "CAPS: coevolution analysis using protein sequences." Bioinformatics 22.22 (2006): 2821-2822. [8] He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. [9] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017. [10] Laskowski, Roman A., and Janet M. Thornton. "PDBsum extras: SARS‐CoV‐2 and AlphaFold models." Protein Science (2021). [11] Sadek, Ali, David Zaha, and Mahmoud Salama Ahmed. "Structural Insights of SARS-CoV-2 Spike Protein from Delta and Omicron Variants." bioRxiv (2021). 글: 강범창 (beomchang.kang@gmail.com) 서울대학교 화학부 물리화학 전공 박사과정 마지막 학기로 졸업을 앞둔 취준생입니다. 박사과정에서는 계산화학, AI를 연구했습니다. CASP에는 알파폴드가 나오기 직전 대회인 CASP12부터, 알파폴드1이 나온 CASP13, 알파폴드2가 나온 CASP14까지 세 번 참여했습니다. 연구자의 삶을 살면서, 과학기술과 사회가 만나는 곳이 더 많아지고 넓어지기 위한 일들도 조금씩 하려고 합니다. 그림: 박재령 생명과학의 발전 뒤에 숨겨진 과학자들의 노고를 추상적으로 형상화하였습니다. 편집: 김미선 (ESC 과학문화위원회, 도서출판 이김 편집부) 제작: 김래영 (ESC 사무국장) 기획: 민일 (ESC 과학뉴스선정특별위원회 위원장) 발행: ESC 과학뉴스선정특별위원회 과학뉴스선정특별위원회에서 전합니다 평소에 접하시는 논문이나 기사의 내용 중에 우리 ESC의 취지와 결을 같이 하는 소식이 있고 이를 공유하고 싶은 마음이 드신다면 여기를 클릭하여 신청해 주세요. 해당 전공 분야의 선정위원들이 검토 후 선정하고, 제보해 주신 회원과 특별위원 한 분이 함께 초고를 작성하고 편집과 삽화 작업을 거쳐 정식 뉴스로 발행됩니다. 회원 여러분의 많은 관심과 참여 부탁드립니다. 과학뉴스선정 프로그램에 궁금한 점이 있으시거나 선정위원으로 활동하시길 원하시는 분은 언제든 escnewstf@esckorea.org 로 메일 주세요. 감사합니다. ESC 과학뉴스선정특별위원회 드림 여러분의 후원이 기고자와 발행팀에 큰 힘이 됩니다 흥미롭게 읽으셨는지요? ESC 과학기술뉴스는 재능기부와 소정의 금액으로 작업해주시는 여러 전문가 분의 노고로 발행됩니다. 커피 한 잔 값의 후원으로 기고자와 발행팀을 응원해주세요. 여러분이 보내주신 후원금은 과학기술뉴스 발행 및 ESC 운영 비용으로 사용됩니다. 많은 후원 부탁드립니다.
위 저작물에 대한 권리 일체는 사단법인 변화를 꿈꾸는 과학기술인 네트워크(ESC)가 보유합니다. 위 저작물은 크리에이티브 커먼즈 저작자표시-비영리-변경금지 4.0 국제 라이선스에 따라 이용할 수 있습니다. 사단법인 변화를 꿈꾸는 과학기술인 네트워크(ESC) 대표: 김범준 | 주소: (14067) 서울시 중구 동호로24길 27-5, 404호 전화: 1811-1547 | 팩스: 02-6305-5902 | 메일: office@esckorea.org |