슈뢰딩거의 고등어

2019 암 빅데이터 활용 아이디어 경진대회 제안서 본문

생명정보학

2019 암 빅데이터 활용 아이디어 경진대회 제안서

슈뢰딩거의 고등어 2022. 2. 8. 11:02

CAS (Collecting, Analyzing, Sequencing)

서론

기존 플랫폼을 조사해 봤을 때 보험계약 조회+비교+맞춤상품 추천+진료 내역 조회 및 보험금 청구 수준의 1차적인 정보제공 시스템만이 존재하고 있었다. 혹은 분산된 의료정보를 블록체인을 이용하여 개인이 관리할 수 있는 시스템을 구축하고 있었으나 더 나아가 생활에 직간접적으로 연결되는 재화비용과 예방시스템에 관심을 두진 않았다. 따라서 의료정보 뿐 아니라 개인의 유전자 정보와 라이프스타일을 종합한 개인 생애 관리 시스템을 구축한 플랫폼(CAS, Collecting, Analyzing, Sequencing)을 제시하고자 한다. 이 플랫폼은 개인의 건강데이터를 수집하여 의료데이터 생태계를 구축한다. 먼저, 고객의 과거부터 미래까지의 질병 위험도를 예측하여 이를 예방하기 위한 생활 패턴을 추천하고 그에 맞는 보험 상품을 추천한다. 이를 기반으로 기존에 가입된 보험과의 효율성과 보장내역, 가격 비교를 제공하는 솔루션이 담겨있다. 고객이 판매하는 유전자, 라이프스타일 및 진료진단 데이터는 블록체인 형태로 저장되며 이 때 고객은 플랫폼에서 토큰 이코노미를 구현해 암호화폐나 포인트로 보상을 받는다. 플랫폼 생태계 내에 재화나 서비스에 대한 결제 수단은 물론 다양한 서비스에 활용되어 생태계를 풍요롭게 만들게 될 것이다. 더 나아가 구축된 의료데이터 생태계에서 제약 회사 및 의료진들은 환자 맞춤 신약 개발 및 정밀한 질병 진단을 가능하게끔 하는 무궁무진한 기회의 장이 될 수 있다. 참고로 국내에서 의료기관이 아닌 플랫폼에서의 유전자 정보 수집 및 블록체인 기술 관련 허용된 법안은 없지만, 점차 규제가 완화되리라는 전제 하에 자유롭게 설계한 미래 기반 기술 시스템이므로 추후에 현실화될 가능성이 높다고 판단된다.

본론

1. 플랫폼 개발의 필요성

2007년 세계 약 760만명이 암으로 사망하는 등 암은 전세계적으로 가장 많은 사망자를 내는 질병 중 하나로 발생연령이 점차 낮아지며 평균수명 연장에 따라 암 발생율은 더욱 증가할 전망이다. 미국, 일본 등 산업화가 진전된 선진국일수록 암 발생 빈도가 높아 더욱 큰 생명의 위협요인으로 부각되고 있다. 이에 더하여 국내외 암 환자 발생 수는 지속적으로 증가하여 항암제 개발을 위한 전세계의 투자 규모와 항암제 시장은 계속 증가하고 있다.

 

여전히 우리나라 사망원인 1위가 암으로 인한 사망이다. (전체의 27.6%, 2017년 10만명당 153.9명으로 2016년 10만명당 153명보다 약간 증가, 참고: 2015년 150.8명) 이는 비만의 증가 및 식생활의 서구화로 인해 적지 않은 영향을 보고 있는 것이 사실이다. 주요 암발생요인을 보면, 흡연, 음주, 식생활(과다지방섭취), 비만, 감염(간염),환경오염, 운동습관 등에 많은 영향을 받고 있다. 특히 위암이 서구에 비해 많이 발생되는 것은 쌀밥 위주의 식사, 절인 음식의 잦은 섭취, 소금의 과다 섭취 등과 연관이 있다고 보고되고 있다. 따라서, 이 플랫폼은 생활이 서구화된 모든 한국인에게 적용되는 범용적인 플랫폼이며 이를 이용하여 더욱 정밀하고 섬세한 헬스데이터 수집 및 건강관리가 가능해질 것이다. 더 나아가 국내뿐만 아니라 전 세계적으로도 용이한 헬스케어 플랫폼이 될 수 있다고 판단된다.

2. 데이터 수집 및 관리

2.1 데이터 수집 방법 및 과정 CAS에서 사용자의 정보를 분석하고 솔루션을 제공하기 위해서는 먼저 데이터 수집이 이루어져야 한다. CAS는 금전적 보수를 지불하며 바이오 데이터(유전정보, 환경정보, 생활 정보)를 얻는 단계를 거쳐 금전적 보수를 받으며 바이오 데이터를 얻는 이상적인 사이클을 설계하였다. 먼저 CAS가 고객이 원하는 솔루션을 제공하기 위해서는 충분한 바이오 데이터가 있어야한다. 따라서 데이터가 없는 초기 단계에는, 금전적인 보수를 제공하는 방식으로 바이오 데이터를 수집하도록 한다. 국내에서는 국립암센터에서 기본정보를 포함한 진단검사정보, 수술정보, 환자건강정보 및 사망정보까지 메타데이터를 수집할 수 있다. 이에 더하여 바이오 데이터의 양이 많은 해외 국가에서도 데이터를 구매할 것이다. 그러나 외부의 기관에만 의존하여 데이터를 수집하는 것은 유전자정보를 제외한 환경적인 데이터 수집에 매우 취약할 수 있다. 그러므로 CAS는 기관에서 구매하는 방식 이외에도, 개인에게 해당 플랫폼의 토큰 이코노미를 통해 금전적인 보수를 제공하며 바이오 데이터를 수집한다. 보건복지부고시 제2016-97호(‘2016.6.20.제정)에 의해 의료기관이 아닌 유전자검사기관이 직접 실시할 수 있는 유전자 검사(DTC) 항목에 관한 규정이 제정됨에 민간 유전자 검사 업체도 2016년 6월 30일부터 혈당, 혈압, 피부노화, 체질량 지수 등 12개 검사항목과 관련된 46개 유전자를 직접 검사할 수 있게 되었다. 한국과 미국의 민간 유전자 검사 시장을 비교해봤을 때, 한국은 법령으로 정해진 유전자만 검사가 가능한 Positive 규제인 반면, 미국은 규제된 검사만 제외하고는 검사가 가능한 Negative 규제이다. 개인 의뢰 유전자 검사 시장의 2015년 글로벌 시장 규모는 800억원 정도에서 매년 25.1% 정도 증가하여 2022년에는 4,000억원 이상으로 성장할 것으로 전망하고 있다. 이러한 시대흐름에 맞춰 한국 정부는 개인 유전체 검사에 대해 산업통상자원부와 보건복지부를 중심으로 한 투트랙으로 규제를 완화를 하려는 모습을 보이고 있다. 이와 같은 근거로 국내 법안에 따른 유전정보 수집 및 활용에 대한 규제는 점차 자유로워질 것이라 판단하였다. 따라서 유전정보는 개인에게 유전자검사를 이행하여 수집하도록 하고, 환경정보나 생활정보는 개인에게 웨어러블 기기를 제공하여 생활적인 부분의 데이터를 수집하고, 유전정보 외의 개인정보(거주지, 학력, 직장 등) 또한 설문조사 등을 통하여 수집한다. 위와 같은 방식으로 데이터를 충분히 수집하여 CAS가 다수의 고객에게 충분히 솔루션을 제공할 수 있게 된다면, 기관이나 개인에게서 유전정보를 구입하는 빈도 수를 줄인다. 고객이 CAS에게 솔루션을 얻기 위해 데이터를 제공하는 양이 충분히 많기 때문에 굳이 많은 데이터를 더 이상 구매할 필요가 없게 되는 것이다. 물론, 새로운 질병이나 희귀병 등의 특별한 경우에 대해서는 데이터를 구매해야 할 상황이 생길 수 있겠지만, 이와 같은 경우가 아니라면 더 이상 금전적 보수를 지불하며 데이터를 구매할 필요는 없다. 다시 말해, CAS에 충분한 데이터가 모이게 되면, 고객은 CAS에 솔루션을 얻기 위해 돈과 데이터를 주게 되고 CAS는 환자에게 수집된 데이터를 기반으로 플랫폼의 기능을 더 강화할 수 있는 것이다.

2.2 데이터 관리 방법 CAS는 IPFS(InterPlanetry FileSystem)을 이용하여 데이터 관리를 한다. IPFS는 오늘날의 데이터 분배 트렌드에 맞춰 개발된 파일 관리 시스템이다. 이 파일 시스템은 중앙화 된 하나의 서버에 데이터를 저장하는 것이 아닌 각 노드들이 bit torrent 시스템을 이용하여 파일을 전달해서, 고용량의 파일을 빠르고 효율적이게 전달하고, 업로드 된 파일을 수정을 할 때마다 기록이 남는다. 또한 각각의 파일은 하나의 해쉬값을 가지고 있어 해쉬값을 안다면 빠르게 접근이 가능하다. 이러한 IPFS의 특징을 활용하여 CAS는 블록체인에 고객의 데이터를 담는다. 한편, 블록체인은 확장성 문제라는 큰 문제를 안고 있다. 최근에 블록체인의 인기가 상승하여, 블록체인에 쌓이는 데이터 량이 매우 크게 늘어났다. 때문에 블록체인의 처리시간이 이전보다 느려졌다. 따라서 CAS는 큰 데이터를 빠르게 처리하는 IPFS와 데이터의 투명성을 보장하는 블록체인을 결합하여, 투명성을 유지하며 빠르게 고객의 데이터를 관리한다. 또한 CAS는 고객의 데이터를 안전하게 관리하기 위해 암호화키를 사용자 본인의 휴대폰에 저장하는 형식을 취한다. CAS는 데이터를 수집하고, 그 데이터를 분석하는 회사이기에, 개인의 데이터를 매우 중요히 취급한다. 따라서 CAS는 암호화키와 복호화 키 모두 사용자의 개인 스마트폰에 저장하여 해당 스마트폰에서 자신이 직접 필요한 데이터를 전송할 수 있도록 한다.

3.분석 및 솔루션 제시 CAS는 모든 질병을 공통적으로 예측할 수 있을 만한 분석 방법인 GWAS를 사용한다. 이는 SNP를 활용하여 대상이 어떤 질병에 걸렸는지와 걸릴 가능성에 대해 예측이 가능하다. 대표적인 SNP 데이터베이스 중 하나인 DBSNP에는 모든 종에서 24,400만개 이상에 ssSNP(submitted SNP), 8,800만개 이상의 rsSNP(reference SNP), 3,000만개 이상에 validated SNP이 보고되어 있다. 이처럼 많은 SNP 데이터가 축적되어 있으므로 대상의 SNP를 분석하여 질병을 밝혀 내는데 가장 적합하다고 생각하여 GWAS방식을 채택하였다. GWAS 분석에 의해 예측된 질병의 보다 정확한 판단을 위하여 MWAS 및 해당 질병 맞춤 진단을 실시할 예정이다. 어떤 고객이 이 분석방법을 활용하여 암 질환 관련 판정을 받았다고 가정하자. 고객의 정보는 시선바이오머티리얼스가 개발한 암 선별 진단 기술인 현미부수체 유전자의 불안정성(Microsatellite Instability, MSI) 검사 기술과 바이설파이트(Bisulfite) 전처리가 필요 없는 DNA 메틸화 검출 기술을 이용하여 정확도를 향상시킬 것이다. 이에 따라 CAS에서도 대상의 가족력, 생활 습관 그리고 DNA 분석을 통해 질병을 예방하거나 치료할 수 있을 것이라 기대된다. 결과적으로, CAS는 유전적인 부분과 생활 습관 등 사용자의 정보에 관한 데이터를 수집, 분석해서 고객에게 적합한 생활 습관이나 솔루션을 제시해 줘야 한다. 정보의 분석 방법은 딥러닝 기술을 활용하도록 한다. 딥러닝은 데이터의 충분한 양과 정확도가 중요한데, 해당 플랫폼에서의 데이터 수집 시나리오와 잘 맞물릴 것이라 판단되어 적합한 방식의 분석방법이라고 생각하였다. 따라서 이미지 데이터를 포함하고 있는 바이오 데이터는 3-layered CNN기법을 활용하여 neural network를 구성하고, 활용한 결과에 대해서는 통계분석학적 방법(R, SPSS 등)으로 결과를 분석하도록 한다. Vuno에서 딥 러닝을 이용해서 심장 마비를 예측해내는 연구사례가 있다. 이 연구는 심장 마비와 연관성이 있는 네 가지 주요 요인에 관련된 많은 양의 데이터를 모아서 딥 러닝으로 학습시킨 후 그 네 가지 요인을 종합적으로 분석, 예측해 낸 연구이다. 이 사례를 기반으로. 딥러닝을 통해 고객이 자신이 알고 싶어하는 정보를 어떤 것이든 방대한 데이터를 이용해 분석, 확인을 넘어 생활 습관을 제시, 데이터를 기반으로 한 식단이나 의약품 등을 처방해 줄 수 있을 것으로 기대된다.

참고로, 교보생명은 블록체인 기술을 활용하여 고객이 보험금을 청구하지 않아도 병원비 수납내역과 보험사의 보험계약 정보를 기반으로 보험금이 자동으로 지급한다. 예를 들어 고객이 병원 진료를 받고 병원비를 수납하면 병원에서 필요 서류를 보험사로 전송하면 보험사에서 보험금을 자동으로 고객에게 송금하는 방식이다. 따라서 CAS에서도 위의 블록체인 시범사업을 벤치마킹 하여 블록체인 기술을 활용해 기업과 고객 그리고 보험사를 묶어 고객이 만약 보험에 가입되어 있지 않을 경우에는 고객에게 알맞은 보험을 추천해준다. 그러나 만약 고객이 보험에 가입되어 있는 경우에는 고객이 보험으로 가입한 질병과 기업에서 분석을 함으로써 예측한 질병이 일치하는 지를 조사하고, 현재 고객이 가입한 보험보다 더 좋은 보험이 있다면 추천해주는 식의 솔루션을 제시한다.

결론

이 플랫폼 CAS는 크게 사용자에 관한 데이터 수집을 하고 관리를 하는 단계와 데이터를 분석해서 솔루션을 제시하는 단계로 나눌 수 있다. 데이터 수집 단계에서는 최대한 신뢰도가 높고 많은 데이터를 수집하기 위한 방안을 고안하는 방향으로 구성했다. 데이터 관리 측면에서는 블록 체인의 장점과 빠른 처리 속도를 동시에 잡는 방안을 제시한다. 앞서 언급했듯이 복지부가 질병 유전자 검사도 향후 인증 대상에 포함시킬 것이라고 밝히면서 CAS가 누구나 쉽게 자신의 데이터를 기반으로 한 조기진단을 기반으로 미래를 예측, 설계하는 역할을 할 것이라 기대된다. 완화된 규제에 따라서 데이터 보안의 필요성이 대두될 것이다. 이 때 플랫폼에서 제시하는 데이터 위변조가 불가능한 탈중앙화된 블록체인 기술 도입으로 고객의 건강과 유전자 정보 등에 대해서는 더욱 엄격한 보안 관리가 이뤄질 것이다. 보험사 총보험료의 8%가 보험사기 손실로 집계될 정도였지만 IT기술을 활용해 자동견적 및 보험사기 방지 시스템 등을 갖춰 슬림화된 사업비용으로 손익을 개선하고, 개별 고객으로부터 부여받은 더 정확한 데이터를 기반으로 맞춤형 상품 설계를 제공할 수 있게 된다. 고객은 개인의 특수성에 맞춰 보험 상품을 합리적인 금액으로 가입할 수 있다. 또한 고객은 개인이 갖고 있는 데이터에 대한 주권을 확보할 수 있으며 불필요한 진료와 비용으로부터 벗어날 수 있다

'생명정보학' 카테고리의 다른 글

부주상골 증후군 수술 (D-1)  (0) 2022.06.03
바이오 메디컬 디지털 영상  (0) 2022.02.08
돌연변이의 장단점과 사례  (0) 2022.02.08
센트럴 도그마  (0) 2022.02.08
Precision medicine for liver cancer  (0) 2022.02.08
Comments