상세 컨텐츠

본문 제목

(bulk) 세포 유형 확인 및 정량화

Bioinformatics

by 츄릅랑이 2022. 1. 26. 02:03

본문

단일세포 수준에서의 데이터로 세포 유형을 확인하는 작업은 single-cell RNA-seq과 spatial transcriptome 분야에서 가장 먼저 하는 작업인데요. 특히, 암을 연구하는 분야에서는 종양 및 주변 미세환경에 존재하는 면역세포와 비면역세포의 (위치) 확인과 양을 확인하는 것이 첫번째로 수행되는 일이죠. 싱글셀 해상도에서 시퀀싱을 한다는 건 흥미 있는 세포들 (예를 들면 종양) 주변에 어떤 세포들이 얼마나 존재하면서 어떤 영향을 줄지 단일세포 수준에서 샅샅히 파헤쳐 보겠다는 의미를 담고 있죠. 이미 Bulk RNA-seq 데이터로 이러한 작업들이 많이 진행이 됐고, 여기서 Bulk RNA-seq을 사용해 개발된 툴에 대해서 정리해보고자 해요.

 

Bulk RNA-seq은 싱글셀 시퀀싱보다 먼저 나온 기술로, (원하는) 종양 부위에서 나온 세포들을 통채로 시퀀싱하는 방법입니다. 따라서 벌크 (통채로?) 시퀀싱한 종양 데이터에서 어떤 세포들이 어떤 비율이 포함되어 있는지 궁금해지죠. Bulk RNA-seq에서 세포의 유형들을 확인하고 정량화하는 방법으로는 두가지가 있어요.

 

세포 유형 예측 및 추정치 계산 접근법

세표 유형 예측 및 양을 계산하는 방법으로, 마커 유전자 기반 접근법과 deconvolution 기반 접근법이 있습니다.

마커 유전자 기반 접근법

마커 유전자 기반 접근법은 유전자세트 스코어링 기반 방법이라고 말할 수 있어요.

하나의 세포 유형을 대변하는 유전자리스트 (시그니처 signature라고 부르죠)를 기반으로 각 세포 유형의 시그니처를 사용해 세포 유형마다 정량화하는 방식입니다. 이 접근법을 사용하기 위해서는 미리 잘 정의된 세포 유형별 시그니처가 필요합니다. 따라서 여러 연구진들에 의해 실험으로 검증된 세포 유형 시그니처가 발표되거나 사용되기도 합니다.

이러한 접근방법으로 만들어진 툴로는 MCP-counter와 xCell이 있습니다.

MCP-counter는 유전자 발현값을 직접 사용하고, xCell은 시그니처의 enrichment에 대한 통계적 검정을 수행하여 세포 별 존재량을 헤아려주죠.

deconvolution 기반 접근법

deconvolution 기반 접근법은 여러가지 regression 기반으로 진행이 됩니다. 샘플의 유전자 발현값을 다양한 세포 유형의 기여도의 가중치 합으로 설명하는 방식이죠.

시그니처들과 혼합 mixed 유전자 발현값이 있다면 세포 유형의 비율을 유추할 수 있어요. 세포 유형들을 확인할 수 있는 유전자세트가 있고 (시그니처가 있고), 그 유전자들의 발현 비율이 어떠할 때 (mixed 유전자 발현값이 필요하죠) 특정 세포 유형이 된다는 식으로 생각해 볼 수 있겠죠.

ν-Support Vector Regression (SVR) 을 이용한 CIBERSORT, constrained least square regression을 이용한 quanTIseq과 EPIC, linear least square regression을 이용한 TIMER가 있어요.

하지만 CIBERSORT는 아카데믹 용도로만 사용할 수 있어요.

 

:sparkles: Memo. 관련 리뷰 Finotello & Trajanoski (2018)를 참고하면 좋을 것 같아요.

 

score 값의 해석

우리가 가장 알고 싶은 건 아마도 관심있는 샘플에서 어떤 세포들이 어떤 비율로 있을까 또는 이 질병은 정상군에 비해 어떤 세포들이 더 많이 있고 어떤 영향을 주길래 질병이 된걸까 겠죠.

그래서 각 툴에서 나온 score값들을 해석하는 게 가장 중요할거예요.

결과로 나온 세포 유형 score를 비교하는 방식으로는 샘플간 비교와 세포 유형간 비교가 있겠네요.

샘플간 비교를 위해서는 MCP-counter, xCell, TIMER를 사용할 수 있어요. 예를 들면, 세포 유형을 환자들간의 차이나 특정 조건들간의 차이를 알아볼 때 활용하면 되겠죠.

샘플내에서 세포 유형들을 비교하고 싶으면 CIBERSORT를 사용하면 돼요.

둘 다 하고 싶으면, EPIC, qunaTIseq, CIBERSORT absolute mode를 사용하면 됩니다.

 

툴을 돌릴 때 사용할 Input

스코어 값 해석이 달라지는 걸 보니 세포 유형을 추정하는 방법에 따라 영향을 받는다는 걸 알 수 있죠. 영향을 받는 건 또 있겠죠. 툴을 돌릴 때 사용할 인풋인 유전자 발현값이예요.

유전자 발현값은 normalization을 할지 또는 log로 변환할지 생각해볼 필요가 있어요.

우선, MCP-counter는 세포 유형을 대변하는 각각의 시그니처의 평균값으로 세포 유형별 score를 제공하는 방식이예요. xCell은 유전자 발현값의 우선순위를 사용해요. 따라서 log 변환이 툴을 돌리는 데 영향을 미치지 않겠죠.

반면에, CIBERSORT는 log 변환을 하면 안되요.

따라서 각 툴에 따라 raw 유전자 발현 값을 사용할지, normalization을 한 값을 사용할지, log 변환한 값을 사용할지는 툴에서 지시하는 바를 잘 알아보고 진행하셔야 해요. 안그럼 툴을 만든 사람들이 속상할지도 몰라요.

더 중요한 건 연구의 결과가 달라지게 될 수도 있다는 거죠. (영영 모르고 지나갈 수도 있지만요, 무섭죠..)

 

더 생각해볼 문제들

앞에서도 살짝 언급했지만, 세포 유형 시그니처를 만드는 건 중요한 일이예요. 암을 연구한다면, 암종별 상관없이 pan-cancer에 적용할 수 있을지, 암종별, 더 나아가 동일한 암의 서브타입별로도 세포 유형을 대변할 유전자세트나 유전자 발현값 비율이 달라질 수 있으니 이런 것들을 고려해볼 수 있겠죠. 이런 문제들을 고민했는지 ConsensusTME라는 툴도 2019년에 개발되어 있어요.

 

그리고 방법론적이 부분도 계속 발전할 수 있겠죠. 또 절대적인 값으로 정량화를 해준다면, 단위의 의미는 무엇일지, 상대적인 값으로 정량화 해준다면 알려진 세포 유형별 유전자세트로 설명할 수 없는 세포 유형에 대한 발현값을 포함하지 않아서 문제는 없는지 등을 생각해 볼 수 있을 것 같아요.

 

적합한 방법으로 툴을 돌리고 멋지게 해석해보세요!!

'Bioinformatics' 카테고리의 다른 글

convert ipynb to markdown  (0) 2022.04.08
convert h5ad to/from seurat object  (0) 2022.03.05

관련글 더보기