전남대 박춘구 교수팀
빅데이터.머신러닝 활용한 전사체 분석
암 등 신규 유전자 발굴 도움
SCI 논문 2편 동시 게재
전남대학교 박춘구 교수(생명과학기술학부)연구팀이 바이오 빅데이터와 머신러닝 방법을 활용해 전사체 분석 방법을 고도화하는데 성공했다.
전사체는 유전체(유전정보의 통합 명칭)에서 전사된 RNA의 전체 집합으로, 특히 전장유전체가 해독되지 않은 생물의 단백질 기능 연구를 수행하기 위해 필수적으로 분석되는 바이오 빅데이터이다.
이런 전사체 데이터는 전장유전체의 유무에 따라 다른 알고리즘으로 독자적으로 개발된 생물정보학 도구를 이용해 분석되고 그 결과가 해석돼 왔다. 하지만, 지금까지 전사체 데이터를 분석할 때 전장유전체의 이용 여부가 전사체 분석결과에 미치는 영향에 대한 연구가 충분히 이루어 지지 않아, 후속 기능유전체 연구에 많은 어려움을 겪고 있었다.
이를 위해 이성권 석·박통합과정생(생물과학·생명기술학과, 제1저자)은 인간의 조직별 전사체 바이오 빅데이터를 이용해 전장 유전체 이용 여부에 따라 다르게 설계된 다양한 전사체 생물정보를 분석한 결과, 전장 유전체의 이용 여부에 따라 전사된 RNA의 정성 및 정량 예측에 차이가 발생함을 확인했고 해당 결과에서 유전자의 구조적 원인을 규명했다.
이는 추후 암 관련 신규 유전자 발굴을 위한 전사체 비교와 비모델 생물의 신규 유전자 발굴을 위한 전사체 분석에 대해서 합리적인 결과 해석 방안을 제시해줄 수 있다.
유전체 내 새로운 기능을 위해 복제된 유전자와 최근 인간 질병 진단 마커로 부각되고 있는 유전자 동형 또한 전사체 분석을 통해 발굴되고, 후속 기능유전체 연구에 폭넓게 활용되고 있다. 하지만, 유전자 복제에 의한 패럴로그(paralog)와 유전자 동형(isoform)은 그 기능과 역할이 다름에도 높은 서열 유사도에 의해 서로 구분되기 쉽지 않다. 이를 위해 오주성 박사과정생(생물과학·생명기술학과. 제1저자)은 높은 상동성을 갖는 패럴로그와 유전자 동형을 구분하기 위한 추가 멀티오믹스 특징을 발굴했고, 이를 이용해 PIC-Me라는 머신러닝 모델을 설계 하였다. 해당모델은 90% 이상의 정확도를 보였다.
이 두 연구는 국제학술대회인 DTMBio(Data and Text Mining in Biomedical Informatics)에서 발표됐고, 올해 10월 BMC bioinformatics (영향력지수 3.169)에 동시에 게재됐다.
*논문원제(1): Lee, SG., D.Na, C. Park Comparability of reference-based and reference-free transcriptomeanalysis approaches at the gene expression level. BMC Bioinformatics. (2021) 22(Suppl 11): 311
*논문원제(2): Oh,J., SG. Lee, C. Park PIC-Me: Paralogs and Isoforms Classifier based onMachine-learning approaches. BMCBioinformatics. (2021) 22(Suppl 11): 311