期刊:Science China-Life Sciences
影響因子:8.0
在前面的章節(jié)中,我們系統(tǒng)地回顧了單細(xì)胞組學(xué)的最新進(jìn)展。盡管這些單細(xì)胞測序技術(shù)允許以前所未有的分辨率調(diào)查細(xì)胞異質(zhì)性,但它們遠(yuǎn)遠(yuǎn)不足以充分了解多細(xì)胞生物的復(fù)雜工作原理。許多研究強(qiáng)調(diào),一個細(xì)胞的狀態(tài)不僅受到細(xì)胞內(nèi)調(diào)節(jié)網(wǎng)絡(luò)的調(diào)節(jié),還受到來自環(huán)境的細(xì)胞外信號的干擾。在實驗過程中,組織的分離和單個細(xì)胞的分離都會導(dǎo)致關(guān)鍵空間信息的丟失,包括細(xì)胞位置及其相互接近度?臻g轉(zhuǎn)錄組學(xué)(ST)解決了這一限制,使測量基因表達(dá)與空間信息保存。在本節(jié)中,我們將介紹空間轉(zhuǎn)錄組學(xué)技術(shù),討論空間數(shù)據(jù)分析的計算方法,并回顧其在各種生物系統(tǒng)中的應(yīng)用。此外,我們還將深入探討空間多組學(xué)技術(shù)的最新進(jìn)展。
空間分辨轉(zhuǎn)錄組學(xué)技術(shù)
目前所有的空間轉(zhuǎn)錄組學(xué)技術(shù)可以大致概括為三類,主要基于(i)顯微解剖,(ii)條形碼,和(iii)成像(圖14A-C)。這些ST技術(shù)在位置標(biāo)記和轉(zhuǎn)錄本分析的方法上有所不同,這可能決定了空間分辨率、檢測效率、要求的樣本類型等等。接下來,我們將討論從每個類別中選擇代表性技術(shù)的原則,并總結(jié)它們的特點。整理的技術(shù)列表及其相應(yīng)的特征如表4所示。
1. 基于顯微解剖的ST技術(shù)
屬于這一類的技術(shù)旨在通過各種顯微解剖方法從多個空間近端組織亞區(qū)中計算重建組織的三維結(jié)構(gòu)(圖14A)。例如,RNA斷層掃描(tomoseq)從多個假定相同的生物樣本中沿著三個正交軸的一系列順序冷凍中獲得RNA。相同生物樣本的要求限制了tomo-seq在人類樣本上的應(yīng)用。相比之下,STRP-seq采用兩級解剖策略將組織切片分為初級切片和次級切片,假設(shè)空間表達(dá)模式在間隔14 μm的連續(xù)初級切片之間是恒定的。基于冷凍切片,Geo-seq利用LCM將組織切片成小至10個細(xì)胞左右的區(qū)域。這類方法中的其他方法包括ProximID 和PIC-seq,它們側(cè)重于兩個(雙胞胎)或三個細(xì)胞(三胞胎)內(nèi)的物理細(xì)胞相互作用,而不是組織中的位置或周圍環(huán)境。
除了物理切片,顯微解剖可以通過結(jié)合光學(xué)標(biāo)記和基于熒光的細(xì)胞選擇,或基因指數(shù)寡核苷酸的光切割來完成。例如,轉(zhuǎn)錄組體內(nèi)分析(TIVA)加載TIVA標(biāo)簽(即光激活的mRNA捕獲分子)進(jìn)入活細(xì)胞,并通過激光光激活選擇細(xì)胞,隨后觸發(fā)標(biāo)簽與mRNA的雜交。作為一種替代技術(shù),NICHE-seq將標(biāo)記的地標(biāo)細(xì)胞注射到表達(dá)光激活綠色熒光(PA-GFP)的轉(zhuǎn)基因小鼠中,允許對感興趣的生態(tài)位進(jìn)行原位標(biāo)記。組織解離后,活化的PA-GFP+細(xì)胞通過FACS進(jìn)行分類,進(jìn)行單細(xì)胞轉(zhuǎn)錄組分析。NanoString開發(fā)的商用GeoMX數(shù)字空間輪廓儀(DSP)采用帶有UV可切割接頭的探針,并自動進(jìn)行光學(xué)選擇。
總的來說,微解剖與單細(xì)胞或bulk-RNA相結(jié)合測序使得在空間背景下研究轉(zhuǎn)錄組成為可能。顯微解剖可以用物理方式進(jìn)行,也可以用光學(xué)方式進(jìn)行。物理切片通常是手工進(jìn)行的,這使得解剖方案既費力又耗時。相比之下,光學(xué)依賴切片通常依賴于將專門的標(biāo)簽加載到活細(xì)胞或模式生物的基因工程中,這限制了其在新鮮冷凍或FFPE人類樣本中的應(yīng)用。無論如何進(jìn)行顯微解剖和測序,在所選擇的子區(qū)域內(nèi)的剖面細(xì)胞的確切位置是未知的,導(dǎo)致普遍較低的空間分辨率。
2. 基于條形碼的ST技術(shù)
基于顯微解剖的技術(shù)通過手動標(biāo)記每個子區(qū)域來跟蹤空間信息?臻g條形碼技術(shù)可以自動記錄空間坐標(biāo)(圖14B)。在這種方法中,條形碼與UMIs和聚寡核苷酸一起固定在玻璃載玻片上,以便原位捕獲mRNA和cDNA合成。陣列中的每個條形碼點直徑為100 μm,距離相鄰點的中心距離為200 μm,分辨率為10-40個單元。10x Genomics利用直徑為55 μm、中心到中心距離為100 μm的斑點進(jìn)一步將空間分辨率提高到5-10個細(xì)胞。一些技術(shù)不是將條形碼直接附著在載玻片上,而是將條形碼與小珠連接起來,用于位置標(biāo)記和mRNA捕獲。例如,Slide-seq將10 μm的dna條形碼珠沉積在表面上。同樣,HDST將條形碼珠放入2 μm井的陣列中。這兩種技術(shù)都將空間分辨率提高到1-2個單元。然而,由于條形碼珠粒是隨機(jī)分布在載玻片上的,因此需要原位測序(ISS)或原位雜交(ISH)來解碼每個固定珠粒的條形碼序列。盡管基于頭部的技術(shù)可以達(dá)到細(xì)胞分辨率,但它們?nèi)匀贿^于粗糙,無法檢測亞細(xì)胞差異。
最近,通過重新利用Illumina測序平臺,開發(fā)了Seq-scope,以實現(xiàn)0.5-0.8 μm的中心到中心分辨率。另一種實現(xiàn)亞微米分辨率分析的技術(shù)是Stereo-seq,其中包含條形碼的220納米DNA納米球(dnb)沉積在中心距離為500或715納米的圖案陣列上。Seq-scope和Stereo-seq都需要兩輪測序,其中第一輪將條形碼與空間位置相關(guān)聯(lián),第二輪提供捕獲cDNA的信息,就像Slide-seq一樣。
總之,基于條形碼的方法將空間條形碼技術(shù)與NGS相結(jié)合,允許在空間背景下對RNA進(jìn)行轉(zhuǎn)錄組分析。這些技術(shù)涉及空間分辨率和檢測效率之間的權(quán)衡。與最初的ST技術(shù)或商業(yè)化的10倍Visium相比,Seq-scope、Stereo-seq在空間分辨率上的提高往往是以低檢測靈敏度和低基因覆蓋率為代價的。
3. 基于成像的ST技術(shù)
基于微解剖和基于條形碼的技術(shù)在位置標(biāo)記后提取核酸分子用于NGS測序。為了在原位保存RNA,各種原位轉(zhuǎn)錄組學(xué)技術(shù)被開發(fā)出來用于基因表達(dá)的空間定位,包括ISH和ISS(圖14C)。由于這些方法需要熒光成像,因此它們被統(tǒng)稱為基于成像的技術(shù)。大多數(shù)基于ish的ST技術(shù)主要依靠單分子RNA熒光原位雜交(smFISH)來實現(xiàn)靶向轉(zhuǎn)錄物的原位定量測量。SeqFISH屬于這種類型,它可以通過連續(xù)的熒光雜交、成像和剝離讀出探針來同時檢測多個mRNA分子。使用seqFISH策略,所有的目標(biāo)基因都是通過幾輪讀出探針的組合來編碼的。SeqFISH+將讀出探針調(diào)色板從SeqFISH中的四種或五種顏色擴(kuò)展到60種“偽顏色”,從而在單個細(xì)胞中實現(xiàn)多達(dá)10000個基因的多路復(fù)用。MERFISH是另一種基于smfish的技術(shù),它也需要多輪雜交,但采用了獨特的多位二進(jìn)制編碼策略。為了解決光學(xué)擁擠問題,將擴(kuò)展顯微鏡(ExM)集成到MERFISH中。編碼策略,結(jié)合ExM,允許MERFISH減少雜交輪數(shù)。例如,為了保證檢測到10,000個基因,使用三色成像,seqFISH+需要80輪(4×20)雜交,而MERFISH只需要23輪就能構(gòu)建一個漢明權(quán)值為4的69位HD4編碼。除了基于多路FISH的技術(shù)外,ISS也可以實現(xiàn)RNA的原位分析,它通過原位信號擴(kuò)增對固定組織或細(xì)胞樣本中的RNA進(jìn)行測序。由于細(xì)胞空間有限,一些基于isss的技術(shù)通過設(shè)計針對特定RNA或cDNA的探針來選擇部分基因。2013年發(fā)表的最初的ISS方法使用掛鎖探針與靶標(biāo)結(jié)合,然后通過滾環(huán)擴(kuò)增(RCA)產(chǎn)生RCA產(chǎn)物,用于后續(xù)的結(jié)扎測序。STARmap使用雙組分掛鎖探針直接結(jié)合RNA而不是cDNA,避免了RNA到cDNA的低效步驟,降低了潛在的噪聲。為了消除傳統(tǒng)的支持寡核苷酸連接檢測(SOLiD)測序帶來的強(qiáng)背景熒光,STARmap設(shè)計了動態(tài)退火和連接減錯測序(SEDAL),可以在測序過程中抑制誤差。
除了靶向ISS方法外,還可以采用非靶向方式進(jìn)行ISS,即將轉(zhuǎn)錄物反向轉(zhuǎn)錄為cDNA,然后進(jìn)行DNA擴(kuò)增和測序,而不需要對基因進(jìn)行預(yù)選擇。雖然非靶向方式可以提高轉(zhuǎn)錄組的覆蓋范圍,但它也可能導(dǎo)致分子擁擠。為了緩解這一問題,F(xiàn)ISSEQ利用了分區(qū)測序策略,其中只有一小部分?jǐn)U增子被隨機(jī)選擇并使用擴(kuò)展測序引物進(jìn)行測序,因此導(dǎo)致檢測效率較低。結(jié)合ExM, FISSEQ適用于另一種稱為ExSeq的方法,以區(qū)分擁擠的分子并提高空間分辨率。
一般來說,基于成像的技術(shù)提供高空間分辨率,達(dá)到細(xì)胞甚至亞細(xì)胞水平。在這些技術(shù)中,基于ish的技術(shù)依賴于目標(biāo)基因的先驗知識,具有較高的檢測效率。相比之下,由于國際空間站的局限性,基于國際空間站的技術(shù)已經(jīng)效率相對較低,特別是在沒有目標(biāo)的情況下。此外,大多數(shù)這些技術(shù)都需要專門的高分辨率成像設(shè)備,這可能限制了它們更廣泛的適用性。
4. 空間多組學(xué)技術(shù)
為了對細(xì)胞進(jìn)行更全面的表征,在空間背景下對其他模式的測量已經(jīng)付出了相當(dāng)大的努力,包括基因組、表觀基因組、蛋白質(zhì)組、代謝組等(圖14D)。ST技術(shù)中使用的定位策略已經(jīng)適應(yīng)于實現(xiàn)其他組學(xué)的空間分析。例如,SlideDNA-seq使用條形碼頭陣列捕獲空間分辨的基因組序列,該陣列最初是為空間RNA分析而開發(fā)的。同樣,通過將DbiT-seq的微流體確定性條形碼策略與原位CUT&Tag化學(xué)和Tn5轉(zhuǎn)位化學(xué)相結(jié)合,開發(fā)了spatial-CUT&Tag 和spatial-ATAC-seq 來分析組蛋白修飾和染色質(zhì)可及性。為了了解其原生環(huán)境下的三維染色質(zhì)構(gòu)象,設(shè)計了一種基于merfish的方法來可視化超過1000個基因組位點,用于高分辨率染色質(zhì)追蹤。
在蛋白質(zhì)組學(xué)領(lǐng)域,蛋白質(zhì)表達(dá)可以很容易地通過多重免疫組織化學(xué)(IHC)可視化。免疫組化可以進(jìn)一步與成像質(zhì)細(xì)胞術(shù)或多路離子束成像(MIBI)相結(jié)合,允許同時成像約100種蛋白質(zhì)。此外,感興趣的蛋白質(zhì)可以被dna條形碼抗體靶向,從而通過NGS進(jìn)行量化,如GeoMx DSP 。細(xì)胞表面蛋白可以被抗體結(jié)合而不產(chǎn)生細(xì)胞裂解,從而防止RNA受到損傷。因此,無論是單細(xì)胞組學(xué)還是空間組學(xué),蛋白質(zhì)組學(xué)都可以與轉(zhuǎn)錄組學(xué)相結(jié)合。例如,增強(qiáng)版的10x Visium在mRNA捕獲之前進(jìn)行免疫組化,以實現(xiàn)蛋白質(zhì)和RNA的共同檢測,盡管只允許檢測1-2種蛋白質(zhì)。通過在流動條形碼之前將抗體衍生標(biāo)簽添加到固定組織載片,DbiT-seq可以測量mRNA和數(shù)十種蛋白質(zhì)。此外,NanoString還提供CosMx SMI平臺,可通過高plex成像對1000種RNA和64種蛋白質(zhì)進(jìn)行定量分析。從樣品中收集的代謝物通常使用質(zhì)譜法進(jìn)行定量。為了研究空間分辨代謝組,基于成像質(zhì)譜法(IMS)的各種技術(shù)已經(jīng)發(fā)展起來。這些技術(shù)在從樣品分子中產(chǎn)生離子的方式上有所不同,包括MALDI 、DESI和SIMS。例如,SpaceM是一種基于maldi的原位單細(xì)胞代謝組學(xué)方法。它通過將maldi成像與光學(xué)顯微鏡相結(jié)合,然后使用計算方法進(jìn)行圖像分割和配準(zhǔn),解決了將代謝物強(qiáng)度分配給單個細(xì)胞的挑戰(zhàn)。
除了內(nèi)在遺傳外,許多基因功能還受到空間環(huán)境的影響。為了研究空間功能基因組學(xué),Dhainaut建立了一種名為Perturb-map的方法,該方法可以在組織背景下以單細(xì)胞分辨率匯集CRISPR篩選。這是通過采用蛋白質(zhì)條形碼系統(tǒng)和多路成像來實現(xiàn)的。
空間轉(zhuǎn)錄組學(xué)計算方法
單細(xì)胞分析的標(biāo)準(zhǔn)工作流程包括關(guān)鍵任務(wù),如細(xì)胞聚類、細(xì)胞類型注釋、差異表達(dá)分析、譜系追蹤、細(xì)胞-細(xì)胞通信和集成分析。這些任務(wù)也構(gòu)成了ST數(shù)據(jù)分析的主干?臻g轉(zhuǎn)錄組學(xué)以其獨特的能力提供空間接近性和環(huán)境信息,不僅拓寬了分析范圍,也帶來了巨大的整合挑戰(zhàn)。為了解決這些問題,已經(jīng)開發(fā)了大量的計算方法來整合基因表達(dá)與空間信息,并提供新的見解(圖15)。我們將在接下來的章節(jié)中回顧為不同目的而設(shè)計的方法。已發(fā)表的計算方法列表載于支持資料表S11。
1. 去噪增強(qiáng)空間轉(zhuǎn)錄組學(xué)中的信號
如上所述,許多ST技術(shù)面臨著與低檢測效率和顯著噪聲相關(guān)的挑戰(zhàn)。這些問題源于對每個空間單元(即點或頭)的淺層測序或保存組織結(jié)構(gòu)所需的復(fù)雜實驗步驟,或兩者的結(jié)合。Wang等人在10倍的Visium和Slide-seq數(shù)據(jù)中表明,信號噪聲反映在基因表達(dá)的dropouts和膨脹中。雖然已經(jīng)為scRNA-seq數(shù)據(jù)開發(fā)了去噪方法來解決drop-out問題,但它們往往難以糾正“假的”高表達(dá)。此外,這些單細(xì)胞方法僅依賴于轉(zhuǎn)錄組學(xué)數(shù)據(jù),因此不能直接應(yīng)用于整合額外的空間信息。
專門開發(fā)了幾種計算方法來處理去噪的ST數(shù)據(jù)。例如,spprod可以通過基于潛在圖學(xué)習(xí)的基于條形碼的技術(shù)在噪聲ST數(shù)據(jù)中推算基因表達(dá)。spprod中的去噪過程包括兩個步驟。首先,spprod通過利用空間接近性和表達(dá)相似性來構(gòu)建一個圖。重要的是,如果可以的話,從相應(yīng)的病理圖像中提取的特征可以用于圖的構(gòu)建。接下來,spprod通過借用圖中顯示的鄰域的表達(dá)信息來糾正每個點/頭的基因表達(dá)。另一種方法,spARC,采用了類似的基于圖形的框架,但證明了其在基于成像的ST技術(shù)上的適用性。SiGra也是一種基于圖的方法,但采用了不同的方法來構(gòu)建圖。它利用成像、轉(zhuǎn)錄組和混合三個圖形轉(zhuǎn)換器自編碼器以及注意機(jī)制,使SiGra能夠用多模態(tài)空間信息增強(qiáng)稀疏和嘈雜的轉(zhuǎn)錄組數(shù)據(jù)。stLearn中的SME方法還允許整合圖像特征來規(guī)范化空間基因表達(dá)。它采用了一種簡單的加權(quán)平均策略,根據(jù)接近點之間的形態(tài)相似性計算權(quán)重。Ni等人認(rèn)為,損失和膨脹不是隨機(jī)的輟學(xué)或膨脹,而是由附近點之間和點之間的mRNA流血造成的,這被稱為點交換。為了調(diào)整現(xiàn)貨交換的影響,他們提出了一種稱為SpotClean的方法。SpotClean采用概率框架來模擬給定位點上的基因特異性表達(dá),該框架考慮了該位點組織中存在的reads,并將其讀取到其他位點上的出血,同時也將其他位點上的出血去除。作者證明SpotClean可以在ST和10x Visium等技術(shù)中準(zhǔn)確估計基因特異性UMI計數(shù),其中背景位置可以通過ST幻燈片與匹配的H&E圖像之間的比對來識別。
2. 基于成像的ST數(shù)據(jù)的亞細(xì)胞分析
基于成像的ST技術(shù)為細(xì)胞甚至亞細(xì)胞分析提供了很好的機(jī)會,但也帶來了很大的挑戰(zhàn)。對于這些技術(shù),每個測量的像素只代表一個轉(zhuǎn)錄本,這不足以推斷它屬于細(xì)胞類型。如何將這些單個像素合并形成細(xì)胞或亞細(xì)胞結(jié)構(gòu)將具有重要意義。在目前的研究中,有兩種主要策略用于高分辨率ST數(shù)據(jù)的分析:基于分割的方法或無分割的方法。細(xì)胞分割最初是在顯微鏡免疫組化圖像處理中提出的,它提供了更多關(guān)于細(xì)胞數(shù)量和細(xì)胞形態(tài)的信息。這里的細(xì)胞分割是基于轉(zhuǎn)錄本的稀疏測量來確定細(xì)胞邊界,即將轉(zhuǎn)錄本分配給細(xì)胞。傳統(tǒng)的細(xì)胞分割依賴于從染色圖像中提取的特征,包括強(qiáng)度和紋理,其中一些可以代表細(xì)胞邊界。但是對于RNA的熒光圖像,揭示細(xì)胞邊界需要對細(xì)胞膜進(jìn)行特定的染色,這阻礙了細(xì)胞的分割。大多數(shù)組選擇進(jìn)行額外的細(xì)胞核染色(例如DAPI)來識別假定的細(xì)胞核,然后用于指導(dǎo)轉(zhuǎn)錄本分配?紤]到基因在細(xì)胞核區(qū)域的表達(dá)可能不等于在整個細(xì)胞內(nèi)的表達(dá),一些組合并,輔助poly(A)染色以告知細(xì)胞的體細(xì)胞。已經(jīng)開發(fā)了幾種計算方法來提供替代解決方案。
例如,Qian等人開發(fā)了pciSeq,它利用概率框架將RNA點分配給其原始細(xì)胞。具體而言,pciSeq將DAPI圖像中的細(xì)胞核分割作為細(xì)胞的初始近似,并分別通過負(fù)二項分布和泊松過程模擬細(xì)胞RNA計數(shù)和基因-細(xì)胞距離。該方法以配對的scRNA-seq為參考,利用變分貝葉斯推理估計轉(zhuǎn)錄本同時屬于細(xì)胞和細(xì)胞類型的概率。JSTA是另一種依賴于DAPI染色的初始細(xì)胞核分割和匹配的scRNA-seq參考的方法。JSTA還可以利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)作為分類器,通過迭代像素分配實現(xiàn)聯(lián)合細(xì)胞分割和細(xì)胞類型標(biāo)注。
細(xì)胞分割可以以不依賴于scrna的方式實現(xiàn)。例如,Baysor可以僅根據(jù)轉(zhuǎn)錄本的表達(dá)進(jìn)行細(xì)胞分割,同時也支持與scRNA-seq獲得的細(xì)胞類型特異性表達(dá)譜的先驗信息整合,以及從共染色圖像中分割以改進(jìn)分割。值得注意的是,Baysor使用馬爾可夫隨機(jī)場(MRF)來限制空間近端分子之間的關(guān)系。每個細(xì)胞都以高斯分布建模,整個數(shù)據(jù)集可以看作是細(xì)胞特異性分布的混合物,可以通過貝葉斯混合模型(Bayesian mixture models, bmm)進(jìn)行分離。類似地,Sparcle利用Dirichlet過程混合模型進(jìn)行初始細(xì)胞類型識別,并通過借用相鄰像素的信息,迭代地將每個轉(zhuǎn)錄本分配給細(xì)胞。另一種方法ClusterMap也利用鄰域的表達(dá)來計算鄰域基因組成,然后將細(xì)胞分割作為一個點模式分析問題,通過密度峰值聚類(DPC)算法求解。
在細(xì)胞分割后,可以像scRNA-seq一樣進(jìn)行細(xì)胞水平分析,如差異表達(dá)分析和細(xì)胞-細(xì)胞相互作用。更重要的是,進(jìn)一步探索細(xì)胞內(nèi)的亞細(xì)胞結(jié)構(gòu)成為可能。例如,在細(xì)胞分割的基礎(chǔ)上,ClusterMap可以使用K-means聚類進(jìn)一步將細(xì)胞分割成包括細(xì)胞核和細(xì)胞質(zhì)在內(nèi)的亞細(xì)胞結(jié)構(gòu)。Bento是一個用于ST數(shù)據(jù)亞細(xì)胞分析的工具包,它可以進(jìn)一步識別RNA轉(zhuǎn)錄物的5類亞細(xì)胞定位,包括核、細(xì)胞質(zhì)、核邊緣、細(xì)胞邊緣,以及以上都不是。
以上討論的細(xì)胞分割方法便于對基于成像的ST數(shù)據(jù)進(jìn)行單細(xì)胞分析。然而,挑戰(zhàn)來自技術(shù)噪聲,如不均勻的強(qiáng)度信號和生物變異,包括不同的細(xì)胞大小和形狀以及不同的細(xì)胞密度。這些因素可能在實現(xiàn)準(zhǔn)確的細(xì)胞分割方面造成困難,可能導(dǎo)致下游分析的偏差。因此,已經(jīng)開發(fā)了幾種無分割方法,以便在不執(zhí)行顯式分割的情況下進(jìn)行穩(wěn)健分析。大多數(shù)方法的目的是將每個分子像素分配給特定的細(xì)胞類型,而不是單個細(xì)胞。為了實現(xiàn)像素的細(xì)胞類型分配,Baysor的作者還提供了一種無分割的方法。它是基于相鄰RNA分子可能來自同一細(xì)胞的假設(shè),共同反映了相應(yīng)細(xì)胞類型的轉(zhuǎn)錄組學(xué)特征。他們?yōu)槊總轉(zhuǎn)錄本計算一個鄰域組合向量(NCV),通過利用鄰域信息有效地增強(qiáng)一個像素的信號。ncv隨后被視為“偽細(xì)胞”,用于下游聚類和注釋分析。SSAM提供了一個類似的解決方案,它通過借用其鄰域的信息來估計每個像素的mRNA信號。不同的是,它們應(yīng)用高斯核的核密度估計(KDE),這與Baysor不同,后者為考慮的最近鄰域提供相同的權(quán)重。
3. 整合scRNAseq解讀細(xì)胞類型的空間分布
無論組織樣本是單細(xì)胞還是空間轉(zhuǎn)錄組學(xué),細(xì)胞類型注釋對于破譯細(xì)胞組成都是非常必要的。為scRNA-seq設(shè)計的注釋策略,包括基于表達(dá)標(biāo)記基因的無監(jiān)督聚類和細(xì)胞類型推斷,似乎適用于ST數(shù)據(jù)的分析。不幸的是,由于當(dāng)前ST技術(shù)的限制,這種嘗試通常不會奏效。首先,對于基于成像的靶向ST技術(shù),限制性的基因選擇和讀出噪聲的存在會阻礙未知細(xì)胞類型的鑒定。其次,對于基于條形碼的低分辨率ST數(shù)據(jù),每個點的多個細(xì)胞或細(xì)胞類型混合的測量可能是平均的,這可能會模糊細(xì)胞的異質(zhì)性。最后,對于基于條形碼的高分辨率ST數(shù)據(jù),低檢測效率也對明顯聚類和適當(dāng)?shù)募?xì)胞類型標(biāo)注提出了挑戰(zhàn)。因此,在大多數(shù)情況下,整合ST數(shù)據(jù)與匹配的scRNA-seq對于了解細(xì)胞類型分布是必要的。通常,積分可以通過兩種方法完成:映射或反卷積。細(xì)胞定位包括兩個方面:將預(yù)定義的細(xì)胞類型映射到空間位置和將scRNA-seq數(shù)據(jù)中的細(xì)胞映射到組織中。前者將細(xì)胞類型標(biāo)記從scRNA-seq轉(zhuǎn)移到空間轉(zhuǎn)錄組學(xué),后者預(yù)測來自scRNA-seq的細(xì)胞的空間位置,在某些情況下也被視為scRNA-seq的空間重構(gòu)。對于細(xì)胞類型定位,可以使用來自scRNA-seq的細(xì)胞類型特異性基因特征來計算富集分?jǐn)?shù)。該方法已被證明在分析基于微陣列的胰腺導(dǎo)管腺癌的ST數(shù)據(jù)方面是有效的。對于基因有限的基于成像的ST方法,上述的細(xì)胞分割方法,如pciSeq 、JSTA 和Baysor 也可以在scRNA-seq可用的情況下進(jìn)行細(xì)胞類型分配。另外,由于這些基于成像的ST技術(shù)可以在細(xì)胞分割后提供單細(xì)胞水平的表達(dá),因此現(xiàn)有的單細(xì)胞數(shù)據(jù)整合方法可以直接應(yīng)用于單細(xì)胞分辨率空間數(shù)據(jù)和scRNA-seq的整合。例如,Seurat通過典型相關(guān)分析(CCA)將細(xì)胞從ST和scRNA-seq投射到共享潛在空間。以互近鄰(MNN)識別的細(xì)胞對為錨點,scRNA-seq的細(xì)胞類型標(biāo)記可以轉(zhuǎn)移到空間細(xì)胞中。LIGER和Harmony也可以實現(xiàn)類似的集成。這些單細(xì)胞整合方法利用共同的潛在空間和鄰域信息,還可以預(yù)測ST缺失基因的空間表達(dá),增強(qiáng)ST譜基因原有的弱信號。scRNA-seq的空間重建是在ST技術(shù)繁榮之前提出的,該技術(shù)通過一些空間地標(biāo)性基因的表達(dá)來預(yù)測細(xì)胞的空間位置。早期的方法,如Seurat (v1.0),將含有數(shù)十個基因的ISH參考數(shù)據(jù)建模為二值化表達(dá)圖,然后通過將scRNA-seq衍生的雙峰混合模型與二值化表達(dá)參考相關(guān)聯(lián),概率推斷出單個細(xì)胞的位置。Achim和DistMap也使用二值化的ISH參考,但采用不同的方法來計算細(xì)胞位置對應(yīng)關(guān)系。Achim設(shè)計了一個評分方案,根據(jù)給定細(xì)胞中的基因特異性比率來評估細(xì)胞與每個空間位置之間的對應(yīng)關(guān)系。
DistMap利用二值化的單細(xì)胞基因表達(dá)和空間參考計算馬修相關(guān)系數(shù)(Matthew correlation coefficient,MCC)得分,然后將細(xì)胞軟分配到空間位置。Tangram是最近開發(fā)的一種方法,除了基于ish的數(shù)據(jù)外,它還能夠?qū)cRNA-seq與各種技術(shù)測量的空間轉(zhuǎn)錄組學(xué)相匹配。通過最大化scRNA-seq和ST共享的基因表達(dá)的相關(guān)性,Tangram可以得到一個概率映射矩陣,該矩陣表示在每個空間位置找到每個單個細(xì)胞的概率。最近的方法不是對細(xì)胞位置對應(yīng)進(jìn)行評分,而是將scRNAseq的空間重構(gòu)問題轉(zhuǎn)化為監(jiān)督學(xué)習(xí)問題或優(yōu)化問題。例如,DEEPsc通過訓(xùn)練基于神經(jīng)網(wǎng)絡(luò)的分類器,將空間參考視為scRNA-seq,將細(xì)胞映射到空間位置的問題制定為監(jiān)督分類問題。經(jīng)過充分訓(xùn)練的DEEPsc網(wǎng)絡(luò)將來自細(xì)胞的特征向量作為輸入,并根據(jù)來自不同空間位置的似然度預(yù)測細(xì)胞的空間起源。另一種方法,glmSMA將單元映射框架為凸優(yōu)化問題。首先,采用拉普拉斯矩陣表示位置到位置的物理距離和細(xì)胞到細(xì)胞的表達(dá)距離。通過最小化每個細(xì)胞和相應(yīng)位置的表達(dá)差異,glmSMA最終可以找到從scRNA-seq中的細(xì)胞到st中的空間位置的映射。SpaOTsc將細(xì)胞映射定義為一個最優(yōu)運輸問題,旨在將細(xì)胞到位置的運輸成本最小化。SpaOTsc中的運輸成本主要基于scRNA-seq和空間參考之間的基因表達(dá)差異來衡量,并結(jié)合兩個懲罰項來處理兩個數(shù)據(jù)集的不平衡樣本量,并分別保留每個數(shù)據(jù)集內(nèi)的結(jié)構(gòu)。同樣,novoSpaRc采用最優(yōu)轉(zhuǎn)運框架,其核心假設(shè)是物理近端細(xì)胞具有相似的表達(dá)譜。novoSpaRc通過位置到位置的物理距離和細(xì)胞到細(xì)胞的表達(dá)距離的組合來測量運輸成本,兩者都計算為各自kNN圖中的最短路徑。通過最小化運輸成本,novoSpaRc最終得到了一種映射,通過這種映射,細(xì)胞被映射到盡可能保留原始細(xì)胞-細(xì)胞對應(yīng)關(guān)系的位置,考慮到上述假設(shè)。值得注意的是,novoSpaRc還允許在沒有參考ST數(shù)據(jù)時從頭重建scRNA-seq。大多數(shù)重建方法都是基于物理接近性可以通過表達(dá)相似性來反映的假設(shè)。然而,該假設(shè)不能代表所有細(xì)胞的空間分布模式,這使得推斷的細(xì)胞位置值得懷疑。
細(xì)胞類型反褶積旨在估計每個空間位置(即點或頭)的確切細(xì)胞類型比例,通常用于scRNA-seq和低分辨率條形碼的ST數(shù)據(jù)(如10x Visium)的整合。對于基于高分辨率條形碼的ST技術(shù),如Stereo-seq,原始像素級表達(dá)式以基于bin的方式聚合,然后將每個bin作為一個新的空間單元進(jìn)行反卷積分析。目前的ST反卷積方法基本上可以分為四類:回歸、因式分解、概率建模和基于圖的方法。回歸是一種最流行的方法開發(fā)的大量rna序列反褶積。由于每個點覆蓋的細(xì)胞數(shù)量有限,在ST數(shù)據(jù)上直接應(yīng)用大量RNA-seq反卷積方法會導(dǎo)致來自不相關(guān)細(xì)胞類型的噪聲。為了克服這一問題,基于阻尼加權(quán)最小二乘(DWLS)回歸的ST反卷積方法spatialDWLS采用了兩種措施。首先,在精確估計細(xì)胞類型比例之前進(jìn)行細(xì)胞類型富集分析,以確定每個點可能的細(xì)胞類型。其次,在對富集的細(xì)胞類型進(jìn)行第一輪反褶積后,去除預(yù)測比例較低的細(xì)胞類型,進(jìn)行另一輪反褶積。基于回歸的方法高度依賴于每種細(xì)胞類型的標(biāo)記基因的選擇。與對細(xì)胞類型特異性表達(dá)譜進(jìn)行回歸不同,一些方法提出對潛在主題譜進(jìn)行回歸,該主題譜可以通過矩陣分解從單細(xì)胞表達(dá)數(shù)據(jù)中分解出來。例如,NMFreg最初是為Slide-seq的細(xì)胞類型注釋而開發(fā)的,它結(jié)合了非負(fù)矩陣分解(NMF)和非負(fù)最小二乘(NNLS)。它使用NMF從預(yù)標(biāo)記的scRNA-seq中獲得一個基本的基因因子譜,然后使用NNLS回歸計算每個頭的因子負(fù)荷。由于每個因子都與細(xì)胞類型相關(guān)聯(lián),因此因子負(fù)載充當(dāng)細(xì)胞類型比例。SPOTlight采用了類似的策略,但使用了種子NMF,其中使用了細(xì)胞類型特異性標(biāo)記基因和高可變基因(HVG)的組合,并通過scRNA-seq衍生的細(xì)胞-細(xì)胞類型歸屬初始化因子-細(xì)胞圖譜。反褶積也可以通過分解來實現(xiàn)。例如,STRIDE采用主題建模方法LDA,從scRNA-seq中獲得細(xì)胞類型相關(guān)的主題概況。然后,使用預(yù)訓(xùn)練的主題模型可以推斷每個點的細(xì)胞類型組成。Stdeconvolve也基于LDA,但提供了一種無參考的解決方案。CARD建立在NMF的基礎(chǔ)上,但通過條件自回歸(CAR)模型考慮了點之間的空間相關(guān)性,這使得CARD成為一種“空間”反卷積方法。
除了直觀的回歸或基于因子分解的方法外,概率建模方法已經(jīng)開發(fā)出來,假設(shè)細(xì)胞或點中的基因表達(dá)遵循特定的概率模型。例如,RCTD通過泊松分布對每個位置的基因表達(dá)進(jìn)行建模,并將每個點擬合為單個細(xì)胞類型的線性組合。值得注意的是,RCTD還考慮了特定于平臺的效果。Cell2location遵循類似的概念,但使用NB分布來模擬基因表達(dá)。同樣,Stereoscope使用NB模型,但它適用于完整的基因集,而不是一組選定的標(biāo)記基因。DestVI還使用NB分布來模擬每個基因在細(xì)胞或點中的表達(dá),并使用神經(jīng)網(wǎng)絡(luò)編碼和解碼參數(shù)。最重要的是,DestVI不僅可以估計細(xì)胞類型比例,還可以恢復(fù)每個點的細(xì)胞類型特異性表達(dá),從而捕獲同一類型細(xì)胞內(nèi)的連續(xù)表達(dá)變化。
除了DestVI之外,還有其他幾種基于神經(jīng)網(wǎng)絡(luò)的方法。DSTG首先通過隨機(jī)混合scRNA-seq的細(xì)胞生成偽st數(shù)據(jù),然后從偽st和實st構(gòu)建跨點的鏈接圖。利用捕獲點之間內(nèi)在拓?fù)湎嗨菩缘逆溄訄D,利用半監(jiān)督圖卷積網(wǎng)絡(luò)(GCN)估計real-ST中每個點內(nèi)的細(xì)胞類型比例。CellDART也生成偽st數(shù)據(jù)——一種虛擬的細(xì)胞混合物——但采用對抗性域適應(yīng)的思想。CellDART集成了兩個基于神經(jīng)網(wǎng)絡(luò)的分類器,其中訓(xùn)練源分類器來預(yù)測細(xì)胞類型組成,訓(xùn)練域分類器來區(qū)分真實斑點和偽斑點。通過在訓(xùn)練過程中迭代更新兩個分類器,訓(xùn)練良好的CellDART模型可以從真實ST數(shù)據(jù)中準(zhǔn)確估計每個點的細(xì)胞類型比例。另一種基于神經(jīng)網(wǎng)絡(luò)的方法GraphST采用了不同的策略。GraphST利用一個圖對比自監(jiān)督框架,通過整合空間位置信息和本地上下文來重建ST數(shù)據(jù)的基因表達(dá)。使用自編碼器,GraphST可以單獨學(xué)習(xí)scRNA-seq的潛在表示;趯W(xué)習(xí)到的特征,通過對比學(xué)習(xí)機(jī)制訓(xùn)練出細(xì)胞到點的映射概率矩陣,并結(jié)合scRNA-seq的細(xì)胞類型注釋提供對點的細(xì)胞類型組成。
4. 空間域識別
除了離散分布,我們還對細(xì)胞類型如何在空間上組織形成組織結(jié)構(gòu)和執(zhí)行功能感興趣。直觀地說,物理上近端的細(xì)胞,無論來自相同或不同的細(xì)胞類型,都可以構(gòu)成一個空間結(jié)構(gòu),通常稱為空間域?臻g域的識別將有助于我們理解區(qū)域內(nèi)細(xì)胞之間的交流及其生物功能。從某種意義上說,空間域可以看作是具有特定空間模式的細(xì)胞群。scRNA-seq的標(biāo)準(zhǔn)Louvain聚類方法是基于基因表達(dá)相似性構(gòu)建的圖,沒有考慮空間信息,在這里不直接適用。一些空間聚類方法改進(jìn)了基于圖的聚類算法,以納入空間信息。例如,stLearn利用Louvain或K-means進(jìn)行全局聚類,并通過考慮物理距離執(zhí)行局部聚類來尋找空間分離的子聚類或合并空間近端單點。另一種方法是MULTILAYER,它在基因模式共表達(dá)圖上應(yīng)用Louvain聚類。首先,MULTILAYER通過迭代凝聚策略檢測過表達(dá)基因的表達(dá)模式;虮磉_(dá)模式在這里被定義為基因在多個連續(xù)位置過表達(dá)的區(qū)域。然后,MULTILAYER構(gòu)建一個圖,其中節(jié)點表示先前檢測到的基因模式,邊緣表示基因模式之間的相似性(即基因共表達(dá)程度)。最后,利用Louvain算法將基因共表達(dá)模式劃分為多個組織群落。
許多空間聚類方法不是以間接方式合并空間信息,而是將空間接近信息編碼在MRF中,其中空間依賴關(guān)系由Potts模型表示。Zhu等人開發(fā)了smfishHmrf,該算法將隱馬爾可夫隨機(jī)場(HMRF)應(yīng)用于seqFISH數(shù)據(jù)的空間域識別。他們首先構(gòu)建一個鄰域圖來表示細(xì)胞之間的空間關(guān)系,其中馬爾可夫?qū)傩灾槐A糁苯酉噜徆?jié)點之間的關(guān)系。然后,他們通過聯(lián)合概率分布來建模每個細(xì)胞的區(qū)域狀態(tài),該分布考慮了細(xì)胞的基因表達(dá)和鄰近細(xì)胞的區(qū)域狀態(tài)。通過使用期望最大化(EM)求解場平衡參數(shù),smfishHmrf能夠檢測具有空間相干基因表達(dá)的空間域。BayesSpace采用帶MRF的全貝葉斯統(tǒng)計模型,以確保同一簇中的點在物理上更接近。BayesSpace通過使用Markov chain Monte Carlo (MCMC)和跨不同簇的固定精度矩陣,能夠穩(wěn)定地估計模型參數(shù),識別空間簇,甚至提高空間轉(zhuǎn)錄組學(xué)的分辨率。考慮到MCMC是計算密集型的,固定的平滑參數(shù)可能會限制不同ST數(shù)據(jù)集的性能,Yang等人提出了SC-MEB,以實現(xiàn)高效的計算和可調(diào)的平滑參數(shù)。特別地,他們采用了一種高效的基于迭代條件模型的期望最大化(ICM-EM)方案來估計參數(shù),并通過改進(jìn)的貝葉斯信息準(zhǔn)則(MBIC)來選擇聚類數(shù)。上述基于磁共振成像的方法都假定隱藏的細(xì)胞狀態(tài)是離散的,這限制了我們對細(xì)胞間空間依賴性的理解。相比之下,SPICEMIX將NMF整合到HMRF中,其中觀察到的基因表達(dá)被建模為潛在因素的線性混合,潛在因素的混合權(quán)重被視為隱藏細(xì)胞狀態(tài)。SPICEMIX從另一個角度來理解,它提供了一種考慮空間信息的ST數(shù)據(jù)降維方法,可以作為下游聚類的基礎(chǔ);谕茢嗟募(xì)胞狀態(tài),SPICEMIX進(jìn)一步應(yīng)用分層聚類來定義分類細(xì)胞類型。
在ST數(shù)據(jù)分析中,細(xì)胞類型聚類和空間域識別可以被視為兩個獨立的任務(wù)。我們上面討論的大多數(shù)方法都專注于識別空間域,除了SPICEMIX,其中空間聚類旨在推斷細(xì)胞類型,而不與scRNA-seq整合。另一種方法,F(xiàn)ICT旨在通過空間聚類推斷基于fish的空間轉(zhuǎn)錄組學(xué)中的細(xì)胞類型。具體來說,F(xiàn)ICT通過細(xì)胞類型特異性的高斯分布來模擬細(xì)胞的表達(dá),并通過多項分布來模擬細(xì)胞與其相鄰細(xì)胞之間的關(guān)系。FICT能夠通過最大化聯(lián)合概率似然來分配單元簇。同樣,BASS也通過細(xì)胞類型特異性正態(tài)分布來模擬細(xì)胞中的基因表達(dá),但同時,它通過特定域的分類分布來模擬細(xì)胞類型歸屬。有了這樣一個層次概率框架,BASS可以同時實現(xiàn)細(xì)胞類型聚類和空間域檢測。
空間轉(zhuǎn)錄組學(xué)可以看作是一個點圖,適合用于基于圖的神經(jīng)網(wǎng)絡(luò)。許多基于gnn的方法已經(jīng)被開發(fā)出來,通過整合基因表達(dá)和空間信息來學(xué)習(xí)空間轉(zhuǎn)錄組學(xué)的低維潛在表征,這可以促進(jìn)下游分析,如空間域識別和空間變量基因的檢測。例如,SpaGCN應(yīng)用GCN來整合多個信息源,包括基因表達(dá)、空間位置和組織學(xué)。首先,構(gòu)建一個圖來表示點之間的關(guān)系,其中節(jié)點表示點,通過將組織學(xué)圖像特征轉(zhuǎn)換到第三個“z”坐標(biāo),并將其與點的原始空間坐標(biāo)(x, y)結(jié)合,計算邊緣的距離。然后利用卷積層對圖中相鄰點的基因表達(dá)進(jìn)行聚合;诰酆系幕虮磉_(dá),實現(xiàn)無監(jiān)督迭代聚類算法來識別聚類(即空間域)。
其他方法在基礎(chǔ)GCN中引入了額外的機(jī)制。正如我們在細(xì)胞型反卷積一節(jié)中討論的那樣,GraphST通過將基因表達(dá)與空間位置信息和本地上下文信息相結(jié)合,應(yīng)用圖對比自監(jiān)督框架來學(xué)習(xí)ST數(shù)據(jù)的空間潛在表示。另一種方法是SpaceFlow,它將深度圖信息集(DGI)框架集成到GCN編碼器中。除了基于空間轉(zhuǎn)錄組學(xué)構(gòu)建的空間表達(dá)圖(SEG)外,SpaceFlow還通過隨機(jī)排列表達(dá)構(gòu)建了表達(dá)排列圖(EPG)。這兩個圖都被送入圖卷積編碼器得到低維嵌入,DGI使編碼器通過判別器損失來區(qū)分SEG和EPG的嵌入。有些方法采用自編碼器進(jìn)行空間嵌入。例如,SEDR使用深度自編碼器網(wǎng)絡(luò)來學(xué)習(xí)基因表達(dá)的低維潛在表示,然后使用變分圖自編碼器(VGAE)將其與空間信息集成。STAGATE為自編碼器引入了一種注意機(jī)制,使邊緣權(quán)重的自適應(yīng)學(xué)習(xí)成為可能。例如,點相似度。stMVC構(gòu)建了更全面的學(xué)習(xí)框架。具體來說,stMVC首先通過數(shù)據(jù)增強(qiáng)和對比學(xué)習(xí),從組織學(xué)圖像中學(xué)習(xí)視覺特征。然后利用半監(jiān)督圖注意自編碼器(SGATE)基于提取的視覺特征和空間基因表達(dá)獨立學(xué)習(xí)特定于視圖的表示,并通過注意機(jī)制整合兩個圖。stMVC提出的基于注意力的多視圖協(xié)同學(xué)習(xí)模型最終學(xué)習(xí)出一種更加魯棒的ST數(shù)據(jù)表示。由于ST數(shù)據(jù)的空間信號本質(zhì),一些方法將空間域識別問題轉(zhuǎn)化為經(jīng)典的圖像分割問題。RESEPT使用GNN從點-點圖中學(xué)習(xí)三維嵌入,將基因表達(dá)作為節(jié)點的屬性,并通過邊緣連通性揭示物理鄰接性。將每個點的三維嵌入轉(zhuǎn)換為RGB尺度,使得之前為語義分割而設(shè)計的CNN可以直接應(yīng)用于段空間域。另一種方法,Vesalius采用了類似的RGB嵌入策略,但通過UMAP而不是神經(jīng)網(wǎng)絡(luò)進(jìn)行降維。
5. 空間變異基因和基因表達(dá)模式的檢測
在scRNA-seq分析中,HVG在降維和隨后的細(xì)胞聚類中起著關(guān)鍵作用。在空間轉(zhuǎn)錄組學(xué)中,空間可變基因(SVG)的鑒定對于表征復(fù)雜組織中的功能組織也很重要。識別SVG就是尋找在空間上表現(xiàn)出很大變異的基因。scRNA-seq中的HVG檢測只考慮了高方差而忽略了空間信息,不能直接應(yīng)用于SVG識別。已經(jīng)提出了各種計算方法來從空間轉(zhuǎn)錄組學(xué)中檢測SVG。一些方法基于分割的空間域來識別SVG。例如,像我們上面討論的那樣,SpaGCN首先通過集成多個信息源來識別空間域,然后為每個識別的域定義相鄰域。空間可變基因是通過使用Wilcoxon秩和檢驗識別每個目標(biāo)域和相應(yīng)相鄰域之間的差異表達(dá)基因來確定的。大多數(shù)方法不依賴于空間域識別,而是直接將空間信息納入到模型中來研究基因表達(dá)的空間變異。根據(jù)核心模型,方法大致可分為三類:基于統(tǒng)計建模的方法、基于圖的方法和基于其他原理的方法。
1)基于統(tǒng)計建模
Trendsceek將空間表達(dá)式建模為標(biāo)記點過程,其中空間位置被視為二維點過程,位置表達(dá)式被視為標(biāo)記。對于給定的基因和指定的距離,對距離上的所有點對計算點的空間分布與其標(biāo)記之間的依賴關(guān)系。依賴性評估可通過四項匯總統(tǒng)計來實現(xiàn)。Stoyan的標(biāo)記-相關(guān),均值-標(biāo)記,方差-標(biāo)記和標(biāo)記-方差圖。當(dāng)分?jǐn)?shù)和分?jǐn)?shù)的分布是獨立的時,匯總統(tǒng)計量將保持不變,但如果它們是相關(guān)的,則統(tǒng)計量將在不同的距離上變化。通過排列表達(dá)值來估計顯著性,不同距離間的p值最小即為該基因的顯著性。scGCO也利用標(biāo)記點過程建?臻g基因表達(dá),但將HMRF集成到模型中。對于每個基因,scGCO通過圖切割算法對圖表示進(jìn)行分割。在完全空間隨機(jī)框架下,這些片段可以作為候選區(qū)域來測試表達(dá)式對空間位置的依賴性,其中點在二維空間中的分布被建模為齊次泊松過程。
除標(biāo)記點法外,還有許多方法采用高斯過程(GP)來模擬空間基因表達(dá)。GP是以時間或空間為索引的隨機(jī)變量集合,其中這些隨機(jī)變量的有限集合具有多元正態(tài)分布。GP在地質(zhì)統(tǒng)計學(xué)中得到了廣泛的應(yīng)用,并應(yīng)用于空間轉(zhuǎn)錄組學(xué)建模。例如,SpatialDE基于高斯過程回歸,用空間和非空間方差項兩部分來模擬每個基因的可變性?梢酝ㄟ^計算這些項的比率來量化空間變異性(Svensson et al, 2018)。通過比較全模型與無空間協(xié)方差的零模型的似然,可以用對數(shù)似然檢驗估計統(tǒng)計顯著性。SpatialDE可以通過將擬合線性或周期(即余弦)協(xié)方差函數(shù)的完整模型與高斯核的模型進(jìn)行比較,進(jìn)一步識別具有不同類型空間變異的基因,包括線性或周期性模式。為了滿足高斯分布的假設(shè),SpatialDE采用了兩步歸一化。具體來說,SpatialDE使用一種方差穩(wěn)定變換方法,即Anscombe變換,對nb分布的原始計數(shù)進(jìn)行變換,然后對對數(shù)總數(shù)進(jìn)行回歸。Gpcounts也建立在高斯過程回歸的基礎(chǔ)上,但通過NB或零膨脹負(fù)二項(ZINB)分布而不是高斯分布來擬合空間計數(shù)。同樣,BOOST-GP通過ZINB分布來模擬基因讀取計數(shù),但采用貝葉斯框架來推斷參數(shù)。另一種方法SPARK采用廣義線性空間模型(GLSM), GP建?臻g位置之間的空間關(guān)系,泊松分布建模表達(dá)式計數(shù)數(shù)據(jù)。
此外,SPARK提供了一種更強(qiáng)大的統(tǒng)計方法來控制I類錯誤,它分別計算每個參數(shù)化核的p值,并將它們與Cauchy組合規(guī)則組合在一起。隨著ST技術(shù)的發(fā)展,需要對以往的方法進(jìn)行改進(jìn),以適應(yīng)高稀疏度的大規(guī)?臻g轉(zhuǎn)錄組學(xué)數(shù)據(jù)。SpatialDE2基于SPARK,通過用omnibus test替代Cauchy combination,并引入Tensorflow的GPU加速來提高計算效率。為了降低計算復(fù)雜度和物理內(nèi)存需求,SPARK的作者提出了一種可擴(kuò)展的非參數(shù)測試方法SPARKX。具體來說,SPARK-X建立在一個非參數(shù)協(xié)方差測試框架之上,其中計算兩個協(xié)方差矩陣,分別測量表達(dá)相似性和空間接近性。然后將識別具有特定空間趨勢的基因轉(zhuǎn)化為檢測基因表達(dá)與空間位置的相關(guān)性。另一種方法是SOMDE,它將自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)整合到SpatialDE的高斯過程回歸框架中。SOMDE將原始空間位置濃縮為SOM節(jié)點,保留空間表達(dá)模式和拓?fù)浣Y(jié)構(gòu)。然后將原始空間表達(dá)聚合形成節(jié)點級基因元表達(dá),顯著減小協(xié)方差矩陣的大小,從而提高計算效率。
2)基于圖表示
正如在空間域識別一節(jié)中所討論的,空間表達(dá)式可以用圖表示。一些基于圖形的方法已經(jīng)被證明在SVG識別中是成功的。圖拉普拉斯分?jǐn)?shù)通常用于基于圖的特征選擇,可用于從圖中識別空間變量基因。例如,GLISS首先建立一個相互最近鄰居圖,并計算每個基因的拉普拉斯分?jǐn)?shù),以測量其位置保持能力(即與局部結(jié)構(gòu)的關(guān)聯(lián))。在固定的圖中,低的拉普拉斯分?jǐn)?shù)表明基因表達(dá)的相似性發(fā)生在較近的位置,而較大的差異發(fā)生在較遠(yuǎn)的位置。每個基因的統(tǒng)計顯著性是通過排列表達(dá)和固定的圖來估計的。RayleighSelection提出了組合拉普拉斯分?jǐn)?shù),并將基于圖的表示擴(kuò)展到空間表達(dá)數(shù)據(jù)的簡單復(fù)雜表示。除了圖中包含的頂點和邊,簡單復(fù)合體還包含高維元素,如三角形和四面體,可以捕獲更復(fù)雜的數(shù)據(jù)關(guān)系。因此,組合拉普拉斯分?jǐn)?shù)有助于識別具有更復(fù)雜空間結(jié)構(gòu)的基因。
有些方法在普通的圖表示中引入空間網(wǎng)格來簡化或優(yōu)化空間結(jié)構(gòu)。singleCellHaystack是一種基于空間網(wǎng)格的方法,最初用于預(yù)測從scRNA-seq學(xué)習(xí)的低維空間中差異表達(dá)的基因,獨立于細(xì)胞聚類。它還可以應(yīng)用于使用自然二維或三維空間的空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)的SVG識別。singleCellHaystack首先將多維空間劃分為網(wǎng)格,并定義網(wǎng)格點,用于估計空間中單元格的參考分布。然后,對于每個基因,singleCellHaystack根據(jù)二值化表達(dá)將所有細(xì)胞分為檢測組和未檢測組,并分別估計細(xì)胞分布。隨后計算Kullback-Leibler散度,通過與參考細(xì)胞分布的比較來衡量基因的散度,并通過排列檢驗來評估其顯著性。MERINGUE是另一種基于空間網(wǎng)格的方法。它首先使用Voronoi鑲嵌構(gòu)造鄰域鄰接關(guān)系,Voronoi鑲嵌也用于構(gòu)建scGCO中的圖表示。與k近鄰或k互近鄰相比,Voronoi鑲嵌可以適應(yīng)不同的鄰域大小和距離,在不同細(xì)胞類型和非均勻密度的組織中具有更好的穩(wěn)定性。然后,MERINGUE計算每個基因的Moran’s I來衡量空間自相關(guān)性,它表示空間相鄰位置之間的表達(dá)相關(guān)性。Giotto還提供了一種基于空間網(wǎng)格的方法BinSpect。類似地,BinSpect依靠Voronoi鑲嵌來確定鄰域關(guān)系。BinSpect采用統(tǒng)計富集分析,而不是Moran的I。對于每個基因,BinSpect使用k=2的k-means聚類或簡單的秩閾值對表達(dá)進(jìn)行二值化。接下來,計算列聯(lián)表以反映相鄰位置之間的表達(dá)式依賴關(guān)系。然后采用Fisher精確檢驗來獲得優(yōu)勢比和相應(yīng)的p值。如果一個基因被發(fā)現(xiàn)是重要的,它往往在鄰近的位置高度表達(dá)。
3)基于其他原則
除了基于統(tǒng)計模型或圖形表示的方法之外,還有使用完全不同原理的方法。Sepal提出了一個獨特的策略擴(kuò)散理論,將觀察到的基因表達(dá)譜視為轉(zhuǎn)錄物擴(kuò)散的結(jié)果。在模擬的框架內(nèi),sepal假設(shè)轉(zhuǎn)錄本形成結(jié)構(gòu)化模式比達(dá)到均勻隨機(jī)狀態(tài)需要更多的時間。因此,推斷基因表達(dá)模式的結(jié)構(gòu)化程度轉(zhuǎn)化為測量模擬系統(tǒng)中的擴(kuò)散時間。另一種方法,SPADE側(cè)重于識別與形態(tài)特征相關(guān)的重要基因。SPADE利用CNN從組織學(xué)圖像中提取潛在圖像特征。然后對高維特征進(jìn)行主成分分析,總結(jié)圖像特征的空間分布規(guī)律。SPADE使用線性模型來發(fā)現(xiàn)與圖像模式(即pc)相關(guān)的基因,這些基因已被證明具有特定的空間趨勢。為了模擬基因表達(dá)的空間變異,上述方法只考慮位置之間的相對距離,而忽略了特定方向上的變異。SPATA為用戶提供了根據(jù)先驗知識手動定義軌跡軸的選項。對于每個基因,沿著預(yù)定義的空間軸擬合多個函數(shù)來模擬空間變化模式,包括線性,對數(shù)或梯度上升/下降,單峰或多峰函數(shù)。在所有函數(shù)中,通過對殘差求和的比較,選擇最適合的函數(shù)來表示基因的動態(tài)。在空間可變基因被識別后,一些方法通過聚類進(jìn)一步確定原型基因模式。SpatialDE通過對聚類質(zhì)心具有空間先驗的擴(kuò)展高斯混合模型,對具有相似空間表達(dá)模式的svg進(jìn)行聚類。
同樣,SPARK實現(xiàn)了一種分層聚類算法,將檢測到的變量基因分為不同的類別。MERINGUE不是基于表達(dá)構(gòu)建相似性矩陣,而是通過計算空間相互關(guān)聯(lián)指數(shù)來推導(dǎo)相互關(guān)聯(lián)矩陣,這是對每對基因的Moran 's I自相關(guān)的改進(jìn)。這構(gòu)成了分層聚類的基礎(chǔ)。GLISS在潛在結(jié)構(gòu)上擬合一個樣條模型,其中每個基因可以用擬合的樣條系數(shù)表示,具有相似基因模式的基因?qū)⒐蚕硐嗨频南禂?shù)。與基于表達(dá)的相似度相比,基于樣條系數(shù)計算基因-基因相似度可以降低與空間變異無關(guān)的相關(guān)性。然后,GLISS對系數(shù)進(jìn)行譜聚類,將基因聚類成組。
6. 偽時間軌跡分析
從scRNA-seq或ST數(shù)據(jù)中,我們只捕獲細(xì)胞基因表達(dá)的快照。通過以上的空間域檢測或SVG識別,我們可以分別以離散或連續(xù)的方式研究空間上的轉(zhuǎn)錄動態(tài)。之前在scRNA-seq偽時間分析方面的努力為我們提供了僅從表達(dá)數(shù)據(jù)重建細(xì)胞狀態(tài)軌跡的機(jī)會。ST帶來的附加空間信息通過引入空間維度擴(kuò)展了原有的偽時間分析。在ST數(shù)據(jù)上直接應(yīng)用單細(xì)胞偽時間方法可能導(dǎo)致細(xì)胞軌跡隨時間連續(xù)而在空間上不連續(xù)。為了解決這個問題,stLearn通過加入空間信息來調(diào)整原始的偽時間算法。stLearn首先利用擴(kuò)散偽時間(DPT)算法從基因表達(dá)中預(yù)測偽時間。然后結(jié)合基于表達(dá)式的偽時間和空間距離的差異計算偽時空距離(PSTD)矩陣,并用一個權(quán)值來平衡它們;赑STD矩陣,stLearn構(gòu)建了一個有向圖,并應(yīng)用最小生成樹算法來確定分支(即推斷細(xì)胞軌跡)。與其依賴于僅從基因表達(dá)推斷的初始偽時間軌跡,還出現(xiàn)了幾種從組合表達(dá)和空間信息預(yù)測細(xì)胞軌跡的方法。在空間域識別一節(jié)中討論了SpaceFlow,它提供了一個深度學(xué)習(xí)框架,可以從ST數(shù)據(jù)中學(xué)習(xí)低維嵌入。SpaceFlow生成的嵌入可用于利用DPT算法計算偽時空圖(pseudo-Spatiotemporal Map, pSM),便于從ST數(shù)據(jù)中綜合重建時空軌跡。因此,SpaceFlow生成的時空順序在空間和偽時間上都保持一致性。
7. 細(xì)胞-細(xì)胞通訊和基因-基因相互作用
通過上述分析,我們可以對細(xì)胞類型的空間分布和表達(dá)的空間變化有一個基本的了解。然而,細(xì)胞或細(xì)胞類型的組織,以及產(chǎn)生這種空間模式的基因調(diào)控,仍然難以捉摸。許多研究報道,細(xì)胞行為可以由來自環(huán)境的細(xì)胞信號通路塑造?臻g轉(zhuǎn)錄組學(xué)提供了一個獨特的機(jī)會來研究保存微環(huán)境中的細(xì)胞-細(xì)胞通訊。利用ST數(shù)據(jù)探索細(xì)胞間空間依賴性的方法有幾種,其中最直觀的方法是研究不同細(xì)胞類型的鄰近或共定位。例如,Giotto采用隨機(jī)排列策略來識別富集的細(xì)胞型對。在鄰域網(wǎng)絡(luò)結(jié)構(gòu)固定的情況下,對節(jié)點間的細(xì)胞類型標(biāo)簽進(jìn)行洗牌,形成隨機(jī)的鄰域關(guān)系。通過這種方式,可以確定兩種細(xì)胞類型之間觀察到的超期望頻率的比率,并可以估計相應(yīng)的富集顯著性。spicyR最初是為原位細(xì)胞術(shù)的空間分析而設(shè)計的,它定義了一個分?jǐn)?shù)來衡量細(xì)胞類型共定位的程度。spicyR通過標(biāo)記點過程模擬細(xì)胞的空間分布,應(yīng)用k函數(shù)或方差穩(wěn)定的k函數(shù)(即l函數(shù))來量化特定距離內(nèi)兩種細(xì)胞類型之間的共定位。最近,ang等人基于集體最優(yōu)運輸方法開發(fā)了COMMOT,用于處理復(fù)雜的分子相互作用和空間約束,以推斷空間分辨轉(zhuǎn)錄組學(xué)中旁分泌依賴的細(xì)胞-細(xì)胞通信。
除了觀察到的細(xì)胞類型的共定位外,細(xì)胞之間的空間依賴關(guān)系可能更為復(fù)雜,需要通過更復(fù)雜的方法來建模。NCEM在以節(jié)點為中心的表達(dá)模型中協(xié)調(diào)方差歸因和細(xì)胞-細(xì)胞通信。NCEM首先使用圖結(jié)構(gòu)對單元通信實施鄰域約束。通過提供的細(xì)胞類型標(biāo)簽,NCEM根據(jù)細(xì)胞類型和空間背景應(yīng)用一個功能來擬合細(xì)胞所觀察到的基因表達(dá)。為了適應(yīng)不同場景中空間依賴關(guān)系的復(fù)雜性,NCEM提供了三個模型,包括線性、非線性和生成潛變量模型,分別由線性回歸、非線性編碼器-解碼器GNN和條件變分自編碼器實現(xiàn)。通過對目標(biāo)細(xì)胞(即接收器)的分子狀態(tài)對鄰域(即發(fā)送方)的依賴性進(jìn)行建模,NCEM還可以確定發(fā)送方-接收器信號的方向性。不同于對整個表達(dá)譜依賴于細(xì)胞間通訊的建模,有幾種方法量化了細(xì)胞間相互作用對每個基因表達(dá)的影響。例如,SVCA使用高斯過程模型對靶基因在細(xì)胞間的表達(dá)進(jìn)行建模,并將基因的變異性分解為三個組成部分,包括內(nèi)在效應(yīng)、來自未測量空間變量的環(huán)境效應(yīng)以及來自鄰近細(xì)胞的細(xì)胞間相互作用效應(yīng)。通過這種方式,可以估計每個基因的每個術(shù)語解釋的方差的比例,并且可以識別參與細(xì)胞-細(xì)胞相互作用的生物學(xué)相關(guān)基因。MISTy設(shè)計了一個多視圖框架來解釋單個基因的表達(dá),其中來自不同空間背景的細(xì)胞-細(xì)胞相互作用在不同的視圖中建模。與SVCA相似,MISTy包括內(nèi)觀、近觀和旁觀,分別對應(yīng)于同一位置其他基因表達(dá)的內(nèi)在影響、近鄰的影響和組織結(jié)構(gòu)(即指定細(xì)胞半徑內(nèi)的細(xì)胞)的影響。通過分析每個預(yù)測基因在每個視圖中對目標(biāo)基因的重要性,不同空間背景的影響可以解釋感興趣的基因?qū)。SVCA和MISTy可以模擬基因-基因關(guān)系,發(fā)現(xiàn)與細(xì)胞-細(xì)胞相互作用相關(guān)的基因,但它們都不能識別顯性基因-基因相互作用對。Yuan和Bar-Joseph開發(fā)了GCNG,一種基于gcns的監(jiān)督計算框架,用于預(yù)測基因相互作用。GCNG以空間鄰域的圖表示作為輸入,以及候選基因?qū)Φ臍w一化表達(dá)。輸出將是相互作用或非相互作用基因?qū)Φ姆诸悺?/span>
為了實現(xiàn)監(jiān)督學(xué)習(xí),已知的配體-受體相互作用被標(biāo)記為正對,隨機(jī)選擇的配體-受體對被標(biāo)記為負(fù)數(shù)據(jù)。GCNG具有五層GCN結(jié)構(gòu),可以預(yù)測所研究的ST數(shù)據(jù)集中新的基因-基因相互作用。然而,GCNG不能告知相互作用發(fā)生的細(xì)胞類型,也不能關(guān)注特定局部區(qū)域內(nèi)的相互作用推斷。為了解決這些局限性,一些方法通過考慮細(xì)胞類型位置依賴于配體和受體的共表達(dá)。例如,MERINGUE進(jìn)一步將基因?qū)χg的空間互相關(guān)計算限制為篩選的配體-受體對和兩種感興趣的細(xì)胞類型。Garcia-Alonso等人將他們的CellphoneDB升級到v3.0,可以在特定的微環(huán)境中識別感興趣的細(xì)胞類型的配體-受體對。同樣,在上一步細(xì)胞類型接近分析的基礎(chǔ)上,Giotto通過計算相互作用細(xì)胞類型的細(xì)胞亞群中配體和受體的加權(quán)平均表達(dá)來定義配體-受體相互作用評分。
8. 空間數(shù)據(jù)綜合分析
隨著通量的增加和成本的降低,一些研究從多個個體中生成ST幻燈片以進(jìn)行大規(guī)模分析。其他一些研究從組織的多個相鄰層產(chǎn)生一系列ST玻片,從而實現(xiàn)整個組織的全局視圖。對單個ST玻片進(jìn)行單獨分析可能會降低多個樣品的功效。因此,需要采用積分方法對多個樣本進(jìn)行聯(lián)合分析。此外,隨著形態(tài)學(xué)等附加信息的提供,空間轉(zhuǎn)錄組學(xué)應(yīng)該與其他模式相結(jié)合,以全面表征組織。在本節(jié)中,我們將回顧多樣本集成和不同模態(tài)空間數(shù)據(jù)集成的計算方法。
1)多試樣集成
多樣本積分的核心是將多個樣本放置在同一空間,稱為共同坐標(biāo)框架(common coordinate framework, CCF)。坐標(biāo)系包含兩個方面。一方面,CCF可以代表自然的三維空間,其中多個平面幻燈片排列堆疊,提供組織的立體視圖。另一方面,來自多個樣本的高維空間位置測量可以投影到共享的低維空間中,用于聯(lián)合空間域識別等綜合分析。
已經(jīng)開發(fā)了一些方法來排列來自同一組織的多個連續(xù)載玻片。PASTE將多片排列表述為一個最優(yōu)運輸問題,該問題基于基因表達(dá)和空間信息計算概率排列。通過最小化運輸成本,PASTE可以實現(xiàn)最大限度地提高幻燈片上對齊位置之間的基因表達(dá)相似性,同時保留幻燈片內(nèi)的空間結(jié)構(gòu)。PASTE可以對齊來自同一組織的多個連續(xù)幻燈片,但不能應(yīng)用于來自不同時間點的幻燈片的集成。Andersson等人提出了一種方法eggplant,這是一種基于地標(biāo)的方法,將多個幻燈片投影到共同參考文獻(xiàn)中。首先,eggplant將測量到的空間位置投影到參考點上,使變換前后地標(biāo)之間的距離保持不變。接下來,eggplant應(yīng)用高斯過程回歸來學(xué)習(xí)所有排除地標(biāo)的位置的基因表達(dá)與到地標(biāo)的距離之間的關(guān)系,從而可以預(yù)測參考中每個位置的基因表達(dá)。采用位置轉(zhuǎn)換與表達(dá)預(yù)測相結(jié)合的策略,可以將不同時間點或不同個體的多張幻燈片轉(zhuǎn)移到同一參考文獻(xiàn)中進(jìn)行綜合分析。然而,eggplant不僅需要選擇地標(biāo)位置,還需要定義參考,參考通常是代表組織域的規(guī)范結(jié)構(gòu)。這兩個要求限制了eggplant在腫瘤等更復(fù)雜組織上的應(yīng)用。為了解決這個問題,Jones等人開發(fā)了GPSA,它也是基于高斯過程模型。GPSA構(gòu)建了一個雙層高斯過程框架,其中第一層將測量的空間位置映射到一個公共坐標(biāo)系,第二層描述該系統(tǒng)內(nèi)的空間基因表達(dá)。與eggplant相比,GPSA可以從頭迭代估計公共坐標(biāo)系統(tǒng),但它也提供了基于模板的與預(yù)定義的公共坐標(biāo)對齊的選項系統(tǒng)通過固定一個幻燈片。
不同于將空間位置從多張幻燈片映射到自然3D空間中的CCF,有幾種方法側(cè)重于將多個樣本投影到共享的低維空間。在這種情況下,整合方法應(yīng)該能夠從不同批次中去除不需要的變異,并保留有意義的生物變異,如scRNA-seq。但不同于單細(xì)胞積分法,ST積分法需要考慮空間信息。Liu等人提出了PRECAST,這是一種統(tǒng)一的原則性概率模型,用于聯(lián)合估計低維嵌入并在多個組織載片上執(zhí)行空間聚類。PRECAST采用內(nèi)稟條件自回歸(CAR)模型對歸一化的基因表達(dá)進(jìn)行降維,在低維空間中保持了鄰居之間原有的空間依賴性。由此產(chǎn)生的潛在低維嵌入可以進(jìn)一步利用HMRF模型進(jìn)行空間聚類。正如我們上面提到的,BASS支持多尺度分析,同時進(jìn)行細(xì)胞類型聚類和空間域檢測。它還允許多樣本整合分析,通過聯(lián)合建模和諧校正的空間轉(zhuǎn)錄組與層次貝葉斯框架。另一種方法,MAPLE提出了一個混合框架,用于多個部分的聯(lián)合空間聚類,通過基于gcn的模型進(jìn)行空間感知的低維嵌入學(xué)習(xí)。
2)多模態(tài)集成
如上所述,單細(xì)胞和空間轉(zhuǎn)錄組學(xué)通常結(jié)合起來,通過細(xì)胞作圖或細(xì)胞類型反褶積來破譯細(xì)胞類型的空間分布。在我們回顧的整合方法中,Tangram脫穎而出,通過與多模態(tài)單細(xì)胞數(shù)據(jù)集成,將其他模式的數(shù)據(jù)映射到空間轉(zhuǎn)錄組學(xué)。例如,一旦SHAREseq的單細(xì)胞通過基因表達(dá)相似性定位到空間位置,染色質(zhì)可及性的空間模式就可以被揭示?紤]到許多ST技術(shù)提供相應(yīng)的組織學(xué)圖像,許多計算方法利用額外的圖像信息來提高每一步的分析性能。例如,stLearn利用形態(tài)相似性對表達(dá)數(shù)據(jù)進(jìn)行規(guī)范化,從而減少技術(shù)噪聲的影響。在計算點-點距離構(gòu)建空間轉(zhuǎn)錄組學(xué)圖時,spaGCN考慮了組織學(xué)圖像特征。stMVC采用帶有注意機(jī)制的圖網(wǎng)絡(luò)來整合包括組織學(xué)特征在內(nèi)的多源信息,最終學(xué)習(xí)ST數(shù)據(jù)的低維嵌入。同樣,conST和MUSE等方法也使用深度學(xué)習(xí)架構(gòu)來整合細(xì)胞形態(tài)和轉(zhuǎn)錄狀態(tài)以進(jìn)行聯(lián)合表示。SPADE沒有采用復(fù)雜的基于深度學(xué)習(xí)的機(jī)制,而是使用線性回歸模型直接將基因表達(dá)的空間方差與圖像特征的空間分布模式聯(lián)系起來。
除了便于空間轉(zhuǎn)錄組學(xué)分析外,組織學(xué)圖像還可用于預(yù)測空間基因表達(dá)。已經(jīng)開發(fā)了許多方法來解決這個問題。為了克服一些基于條形碼的ST技術(shù)的低分辨率限制,bergenstratuhle等人提出了一種深度生成模型,從高分辨率組織學(xué)圖像中推斷超分辨率表達(dá)圖,包括原始測量位置內(nèi)部和之間。一些方法不是專注于提高空間基因表達(dá)的分辨率,而是將空間轉(zhuǎn)錄組預(yù)測推廣到?jīng)]有匹配表達(dá)數(shù)據(jù)的組織病理圖像。例如,He等人引入了一種深度學(xué)習(xí)算法ST-Net,通過結(jié)合空間轉(zhuǎn)錄組學(xué)和組織學(xué)圖像來捕獲基因表達(dá)異質(zhì)性。該模型使用包含68個乳腺組織切片的ST切片的BRCA空間轉(zhuǎn)錄組數(shù)據(jù)集進(jìn)行訓(xùn)練,可以直接從組織學(xué)圖像中預(yù)測其他乳腺癌數(shù)據(jù)集的空間分辨率轉(zhuǎn)錄組。然而,ST-Net并沒有考慮到點之間的空間依賴性。HisToGene采用了一種改進(jìn)的Vision Transformer模型來預(yù)測空間基因表達(dá),并考慮了位點依賴性。在HisToGene的基礎(chǔ)上,Hist2ST還包括一個Convmixer模塊,用于捕獲圖像斑塊內(nèi)2D視覺特征的內(nèi)部關(guān)系。
應(yīng)用程序
近年來空間轉(zhuǎn)錄組學(xué)的快速發(fā)展促進(jìn)了其在各種生物系統(tǒng)中的廣泛應(yīng)用。ST技術(shù)在空間表征健康組織的細(xì)胞狀態(tài)方面發(fā)揮了重要作用,其中一些技術(shù)旨在破譯特定發(fā)育階段組織的空間結(jié)構(gòu)。值得注意的是,在這些組織中,神經(jīng)系統(tǒng)一直是研究的焦點。許多研究為構(gòu)建詳細(xì)的大腦空間圖譜做出了重大貢獻(xiàn)。此外,ST技術(shù)在探索損傷或病變組織的微環(huán)境方面已被證明是無價的,包括感染病毒的小鼠肺部,心肌梗死的人類心臟以及一系列不同的腫瘤類型。本文綜述了ST在三個主要領(lǐng)域的應(yīng)用,包括健康組織的發(fā)育和動態(tài)平衡、神經(jīng)科學(xué)和腫瘤微環(huán)境。
1)健康組織的發(fā)育和體內(nèi)平衡
大多數(shù)研究利用小鼠模型來研究早期哺乳動物胚胎的發(fā)育。已經(jīng)建立了小鼠胚胎發(fā)育的幾個階段的空間圖譜。Peng等人關(guān)注著床后階段的譜系分化和形態(tài)發(fā)生。Geo-seq應(yīng)用于從原腸形成前(胚胎期第I5.5天)到原腸形成后期(胚胎期第7.5天)所有胚層中預(yù)先選擇位置的細(xì)胞群。該研究揭示了譜系規(guī)范和組織模式在時間和空間上的動態(tài)分子調(diào)控。此外,他們還發(fā)現(xiàn)了Hippo/Yap信號在細(xì)菌層發(fā)育過程中的關(guān)鍵作用。為了進(jìn)一步探索原腸胚形成結(jié)束時早期器官發(fā)生中細(xì)胞命運的決定,Lohoff等對E8.5 - E8.75時收集的小鼠胚胎的多個矢狀切片進(jìn)行了seqFISH。由于目標(biāo)基因數(shù)量有限,他們將seqFISH與現(xiàn)有的單細(xì)胞轉(zhuǎn)錄組圖譜整合,以實現(xiàn)全基因組的植入。利用生成的單細(xì)胞空間圖譜,揭示了早期發(fā)現(xiàn)的中腦和后腦區(qū)域背-腹軸和喙-尾軸對應(yīng)的基因表達(dá)空間模式腸管背腹分離。最近,Chen等人將高分辨率Stereo-seq技術(shù)應(yīng)用于E9.5 ~ E16.5妊娠中后期的全鼠胚胎,最終構(gòu)建了小鼠器官發(fā)生時空轉(zhuǎn)錄組圖譜(MOSTA)。除了小鼠的早期胚胎發(fā)育,許多研究人員已經(jīng)利用空間轉(zhuǎn)錄組學(xué)來探索驅(qū)動人類器官或組織發(fā)育的空間依賴機(jī)制。例如,Crosse等人利用基于lcm的RNA測序技術(shù),對卡內(nèi)基階段(CS)16 - CS17(即受孕后39-41天)的人類胚胎中正在發(fā)育的造血干細(xì)胞(HSC)生態(tài)位進(jìn)行了空間分辨分析。他們分析了主動脈的背腹側(cè)極化信號,并確定腹側(cè)分泌的內(nèi)皮素是早期人類HSC發(fā)育的重要分泌調(diào)節(jié)因子。在對人類心臟發(fā)育的研究中,Asp等人使用ST技術(shù)表征了人類心臟在三個發(fā)育階段(受孕后4.5 - 5周、6.5周和9周)的不同解剖區(qū)域。通過scRNA-seq和ISS的整合,建立了一個全面的空間圖譜,提供了人類心臟發(fā)生過程中細(xì)胞亞型定位的詳細(xì)信息。類似的策略也應(yīng)用于8至22 PCW的人類腸道發(fā)育研究。除了生成人類腸道發(fā)育的時空圖譜外,他們還揭示了形態(tài)梯度如何指導(dǎo)細(xì)胞分化。空間轉(zhuǎn)錄組學(xué)也被應(yīng)用于成人健康組織的細(xì)胞型圖譜和穩(wěn)態(tài)維持的研究,可以作為與病變組織比較的參考。Shen等利用Stereo-seq技術(shù)繪制了人類牙齦的ST圖譜。通過鑒定牙周炎相關(guān)效應(yīng)細(xì)胞、基因和途徑,ST結(jié)果可能有助于開發(fā)新的牙周炎治療策略。Madissoon等人通過結(jié)合scRNA-seq、snRNA-seq和10x Visium ST,創(chuàng)建了人類肺和氣道的空間多組學(xué)圖譜,其中包括各種新的和已知的細(xì)胞類型?臻g肺圖譜還揭示了特定的組織微環(huán)境,如腺體相關(guān)淋巴細(xì)胞生態(tài)位(GALN),可能在預(yù)防呼吸道感染中發(fā)揮作用。在另一項關(guān)于人類子宮的研究中,Garcia-Alonso等也應(yīng)用多組學(xué)技術(shù)構(gòu)建了人類子宮內(nèi)膜的綜合細(xì)胞圖譜,表征了整個月經(jīng)周期的時空動態(tài)。特別是,進(jìn)一步的空間相互作用分析揭示了NOTCH和WNT信號通路在塑造纖毛和分泌細(xì)胞系分化中的作用。隨著ST數(shù)據(jù)的積累,可以預(yù)見,在不久的將來,多源組織圖的整合將導(dǎo)致整個人體綜合參考空間圖譜的建立。
2)神經(jīng)科學(xué)
明確的分層結(jié)構(gòu)和獨特的解剖區(qū)域使大腦成為驗證新開發(fā)的空間轉(zhuǎn)錄組學(xué)技術(shù)的合適材料。反過來,這些ST技術(shù)顯著增強(qiáng)了我們對大腦空間結(jié)構(gòu)的理解。許多研究都致力于構(gòu)建大腦的參考圖。由于早期基于成像的ST技術(shù)的視野大小有限和密集勞動性質(zhì),大多數(shù)研究集中在小鼠大腦的特定亞區(qū)域。例如,Codeluppi等人開發(fā)了osmFISH,并使用該方法定義了體感覺皮層的空間細(xì)胞組織,僅涵蓋33個靶向標(biāo)記基因和約5000個細(xì)胞。與此同時,Moffitt等人通過將MERFISH與scRNA-seq相結(jié)合,生成了下丘腦視前區(qū)神經(jīng)元的空間分子圖譜。同樣,大腦的其他亞區(qū),如視覺皮層、初級運動皮層、海馬和小腦,已經(jīng)通過不同的基于成像的ST技術(shù)來建立詳細(xì)的空間細(xì)胞組織圖。由于基于高通量條形碼的ST技術(shù)的發(fā)展,Ortiz等人建立了整個成年小鼠大腦的分子圖譜。他們利用ST技術(shù)分析了從一個大腦半球沿前后軸收集的75個鄰近冠狀面切片的空間基因表達(dá)。通過與Allen小鼠腦圖譜(ABA)的比對,他們構(gòu)建了一個完整的腦圖譜,提供了三維組織坐標(biāo)和詳細(xì)的ABA神經(jīng)解剖學(xué)定義。更重要的是,他們還通過無監(jiān)督分類在分子圖譜中定義了新的區(qū)域和層特異性亞區(qū)。無論是整個大腦還是特定的子區(qū)域,這些圖譜對實驗神經(jīng)科學(xué)都有很大的價值,最終擴(kuò)展了我們對大腦結(jié)構(gòu)-功能關(guān)系的認(rèn)識。
除了揭示正常大腦中細(xì)胞類型的空間組織外,空間轉(zhuǎn)錄組學(xué)還可以擴(kuò)展到神經(jīng)退行性疾病或精神疾病的研究,揭示神經(jīng)系統(tǒng)功能障礙或失調(diào)的空間相關(guān)機(jī)制。例如,Chen等將ST技術(shù)與ISS相結(jié)合,捕捉了阿爾茨海默。ˋD)淀粉樣斑塊附近的轉(zhuǎn)錄變化。特別是,他們確定了兩個基因共表達(dá)網(wǎng)絡(luò),可能對阿爾茨海默病中的淀粉樣斑塊沉積有反應(yīng)。Maniatis等在肌萎縮性側(cè)索硬化癥(ALS)的研究中,利用不同階段的ALS小鼠模型,采用ST技術(shù)表征疾病進(jìn)展的時空動態(tài)。結(jié)合ALS患者的死后組織,他們在與ALS病理相關(guān)的轉(zhuǎn)錄途徑中發(fā)現(xiàn)了共同的空間擾動模式。隨著ST技術(shù)在分辨率和檢測效率方面的不斷提高,我們期望建立更詳細(xì)和全面的神經(jīng)系統(tǒng)地圖集。這些資源對于探索電路和行為的結(jié)構(gòu)-功能關(guān)系無疑是無價的。
3)腫瘤微環(huán)境
盡管單細(xì)胞轉(zhuǎn)錄組學(xué)已經(jīng)揭示了復(fù)雜的TME中的細(xì)胞類型組成及其功能,但仍未探索這些細(xì)胞如何在空間上組織以控制或促進(jìn)腫瘤進(jìn)展?臻g轉(zhuǎn)錄組學(xué)使研究不同的細(xì)胞群體和信號通路與空間背景保存成為可能。腫瘤微環(huán)境一般包括腫瘤細(xì)胞、基質(zhì)細(xì)胞和免疫細(xì)胞。最初的研究工作往往集中在腫瘤區(qū)域的內(nèi)部異質(zhì)性。在人類乳腺癌(BRCA)的單細(xì)胞和空間圖譜研究中,Wu等人從scRNA-seq中衍生出7個基因模塊來描述腫瘤內(nèi)的轉(zhuǎn)錄異質(zhì)性。分析發(fā)現(xiàn)兩個在腫瘤區(qū)域相互排斥的基因模塊,它們分別與EMT和增殖狀態(tài)有關(guān)。在另一項原發(fā)性肝癌的研究中,定義了5種癌癥干細(xì)胞(cancer stem cell,CSC)群體,它們在不同的區(qū)域表現(xiàn)出不同的分布模式,包括前沿、腫瘤和高級別門靜脈腫瘤血栓形成。值得注意的是,PROM1+ CSCs在門靜脈腫瘤血栓中的比例高于腫瘤區(qū)域,可能在腫瘤進(jìn)展中發(fā)揮關(guān)鍵作用。
以腫瘤區(qū)域為中心,利用空間轉(zhuǎn)錄組學(xué)可以揭示免疫或基質(zhì)細(xì)胞類型的相對空間分布。Ji等在人鱗狀細(xì)胞癌(SCC)的研究中發(fā)現(xiàn),B細(xì)胞在腫瘤中浸潤,而在腫瘤-間質(zhì)邊界大量存在調(diào)節(jié)性T細(xì)胞、巨噬細(xì)胞和成纖維細(xì)胞。相反,CD8 T細(xì)胞明顯被排除在腫瘤之外。同樣,不同的細(xì)胞亞型或狀態(tài)也顯示出不同的空間模式。Wu等在乳腺癌的TME中發(fā)現(xiàn)了炎癥樣癌癥相關(guān)成纖維細(xì)胞(iCAFs)和肌成纖維細(xì)胞樣CAFs (mCAFs),但這兩種亞型表現(xiàn)出明顯不同的空間分布。mCAFs富集于浸潤性癌區(qū),而iCAFs分散分布于浸潤性癌區(qū)、間質(zhì)區(qū)和淋巴細(xì)胞聚集區(qū)。一些研究感興趣的是腫瘤-基質(zhì)邊界的分子和細(xì)胞類型模式,即腫瘤的侵襲。Wu等人描述了侵襲中細(xì)胞類型豐度的動態(tài)變化,并在邊界附近區(qū)域發(fā)現(xiàn)了免疫抑制微環(huán)境。
空間分析還可以識別腫瘤微環(huán)境中的一些模式結(jié)構(gòu)并對其進(jìn)行表征。在上述肝癌研究中,對ST點進(jìn)行無監(jiān)督聚類,發(fā)現(xiàn)了一個以三級淋巴結(jié)構(gòu)(TLS)相關(guān)基因高表達(dá)為特征的聚類,如CXCL13、CCL19、CCL21、LTF和LTB。病理檢查證實存在TLSs。Wu等定義了一種TLS-50特征來定位其他組織切片中的tls,也發(fā)現(xiàn)TCGA的HCC患者預(yù)后較好。同樣,Andersson等也在her2陽性乳腺癌中發(fā)現(xiàn)了TLSs。為了進(jìn)一步研究TLS如何影響癌癥對免疫治療的反應(yīng),梅蘭等人使用空間轉(zhuǎn)錄組學(xué)研究了腎細(xì)胞癌(RCC)中TLS內(nèi)B細(xì)胞反應(yīng)的性質(zhì)。他們發(fā)現(xiàn)TLSs可以產(chǎn)生和繁殖產(chǎn)生抗腫瘤抗體的漿細(xì)胞,這與免疫治療的反應(yīng)有關(guān)。已知細(xì)胞通訊在腫瘤的免疫監(jiān)視或逃逸以及腫瘤進(jìn)展中發(fā)揮重要作用。通過細(xì)胞類型反褶積或細(xì)胞作圖分析揭示細(xì)胞類型的空間分布,還可以識別細(xì)胞類型接近或共定位模式。
Moncada等人通過將scrna -seq定義的細(xì)胞類型定位到胰腺導(dǎo)管腺癌的ST,確定了炎癥成纖維細(xì)胞和應(yīng)激反應(yīng)癌細(xì)胞的共定位。同樣,scRNA-seq和ST在SCC中的整合,在腫瘤特異性角化細(xì)胞群周圍發(fā)現(xiàn)了纖維血管生態(tài)位。進(jìn)一步的相互作用分析表明,共定位可能由多個配體-受體對介導(dǎo)。在結(jié)直腸癌的另一項研究中,空間轉(zhuǎn)錄組學(xué)和免疫熒光染色顯示FAP+成纖維細(xì)胞和SPP1+巨噬細(xì)胞共存,這與患者生存率低有關(guān)。
隨著空間多組學(xué)技術(shù)的發(fā)展,細(xì)胞串?dāng)_和代謝狀態(tài)等其他方面的特征將被表征,以獲得對腫瘤微環(huán)境復(fù)雜性的更多見解。了解腫瘤微環(huán)境有助于確定治療靶點和設(shè)計抗腫瘤藥物。
總結(jié)
本章全面概述了當(dāng)前空間轉(zhuǎn)錄組學(xué)的進(jìn)展,包括技術(shù)創(chuàng)新、計算方法和各種應(yīng)用?臻g轉(zhuǎn)錄組學(xué)徹底改變了我們對組織組織和細(xì)胞異質(zhì)性的理解,使完整組織內(nèi)基因表達(dá)模式的高分辨率可視化成為可能。計算方法的發(fā)展促進(jìn)了空間轉(zhuǎn)錄組學(xué)數(shù)據(jù)的整合和解釋,揭示了空間調(diào)控機(jī)制和新的分子相互作用?臻g轉(zhuǎn)錄組學(xué)已經(jīng)成功地應(yīng)用于各個領(lǐng)域,包括發(fā)育生物學(xué)、神經(jīng)科學(xué)、癌癥研究和免疫學(xué),具有加速生物標(biāo)志物發(fā)現(xiàn)和個性化醫(yī)學(xué)方法的潛力?臻g轉(zhuǎn)錄組學(xué)代表了一種變革性的方法,并將繼續(xù)完善以重塑我們對復(fù)雜生物系統(tǒng)的理解。我們預(yù)計它將為組織穩(wěn)態(tài)和疾病機(jī)制提供深刻的見解。
參考文獻(xiàn):
Sun F, Li H, Sun D, et al. Single-cell omics: experimental workflow, data analyses and applications. Sci China Life Sci. 2025;68(1):5-102. doi:10.1007/s11427-023-2561-0