ChIP-seq(染色質免疫沉淀測序)實驗指南和實踐(ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia),由ENCODE(Encyclopedia of DNA Elements)和modENCODE(Model Organism ENCODE)聯盟研究人員撰寫。文章發(fā)表在《Genome Research》期刊上,從ChIP概述、ChIP-seq實驗設計注意事項、數據評估及數據報告指南四個方面對ChIP-seq進行了相關介紹,旨在提供一個標準化框架,以確保ChIP-seq實驗的質量和數據的可靠性。小編分享其中的ChIP-seq概述、ChIP-seq實驗設計指南和實驗設計注意事項。
ChIP概述:
全基因組ChIP實驗的目標是定位整個基因組中具有最大信噪比和完整性目標蛋白的結合位點。ChIP-seq的基本流程如圖1A所示。用化學試劑處理細胞或組織,使蛋白質與DNA共價交聯。然后是通過細胞破碎和超聲處理,或是酶解(某些情況),將染色質剪至100-300bp大小。再通過靶向該因子的特異性抗體純化目標蛋白(轉錄因子、組蛋白修飾、RNA聚合酶等)及其結合DNA,相對于起始染色質進行富集。另外,也可以生成表達表位標記因子的細胞系,并通過表位標簽免疫沉淀融合蛋白。
免疫富集后,交聯被逆轉,富集的DNA被純化并制備用于分析。在ChIP-chip中,DNA與差異標記的參考DNA一起被熒光標記并與DNA微陣列雜交。在ChIP-seq中,通過高通量DNA測序分析,在所有設計中,實驗樣品中的ChIP信號將與從適當的對照染色質或對照免疫沉淀制備的類似處理的參考樣品進行比較來確定假定富集的基因組區(qū)域。
不同的蛋白質類別與基因組具有不同的互作模式,需要不同的分析方法:
1. 點源因子(Point-source factors)和某些染色質修飾定位于特定位置,產生高定位的ChIP-seq信號。這一類包括大多數序列特異性轉錄因子、它們的輔助因子、以及在一些情況下與轉錄起始位點或增強子相關的組蛋白標記。這些構成了ENCODE和modENCODE項目的大部分內容。
2. 廣源因子(Broad-source factors)與大的基因組區(qū)域相關。例如,某些染色標記(H3K9me3、H3K36me3等)以及與轉錄延伸或抑制相關的染色質蛋白(例如ZNF217)。
3. 混合源因子(Mixed-source factors)可以在基因組某些位點以點源方式結合,但在其他位置形成更廣泛結合域,如RNA聚合酶II以及一些染色質修飾蛋白(SUZ12)以這種方式表現。

圖1:ChIP-seq工作流程和抗體表征程序概述
A. 特定ENCODE指南的步驟用紅色表示。其他步驟存在標準ENCODE協(xié)議,應針對每種新的細胞系/組織類型或超聲進行驗證和優(yōu)化。(*)常用但可選的步驟。
B. 表征新抗體或抗體批次的流程圖。
C. 使用抗體表征檢測的流程圖。
ChIP 實驗設計指南
(1)測序和文庫復雜性
對于每個哺乳動物基因組的ChIP-seq點源庫,ENCODE的目標是在每次重復中獲得≥10M唯一比對reads,以及目標NRF(非冗余分數)≥0.8。modENCODE點源因子的相應目標是每次重復獲得≥2M唯一比對reads,≥0.8 NRF。果蠅中的廣源ChIP-seq,modENCODE目標reads是≥5M,哺乳動物廣源組蛋白標記的ENCODE臨時目標在NRF≥0.8時的唯一比對reads≥20M。
(2)對照文庫
ENCODE為每種細胞類型、組織或胚胎集合生成并測序一個對照ChIP庫,并將文庫測序至合適深度(至少等于且優(yōu)選大于測序最深的實驗文庫)。如果成本限制允許,應該從每個染色質制備和超聲處理批次中制備對照文庫。重要的是,如果培養(yǎng)條件、處理、染色質剪切方案或儀器有明顯差異,則需要進行新的對照實驗。
(3)可重復性
實驗至少設置兩個生物學重復以確?芍貜托浴榱耸笶NCODE數據通過提交標準,使用IDR方法通過分析確定一致性,如果未達到標準,則需要進行第三次重復。通過IDR確定用于后續(xù)分析的高度可重復peak的截止值(通常使用1%的閾值)。
本ChIP實驗設計指南確保了ChIP-seq實驗能夠產生高質量、可重復的數據,這對于后續(xù)的分析和生物學發(fā)現至關重要。通過遵循這些標準,研究人員可以提高實驗的準確性和可靠性,從而為科學界提供有價值的數據資源。
ChIP-seq實驗設計注意事項:
(1)抗體和免疫共沉淀特異性:
ChIP實驗的質量取決于抗體的特異性和親和沉淀步驟中實現的富集程度。人類細胞和果蠅胚胎中的大多數ENCODE/modENCODE ChIP實驗用抗個體因子和組蛋白修飾抗體進行。
抗體缺陷主要有兩種類型:(1)對預期靶點的反應性差,和/或(2)與其他DNA相關蛋白的交叉反應性。為此制定了一套工作標準和報告指南,旨在提供試劑識別目標抗原的置信度,并且與其他染色體蛋白的交叉反應最小。用于測量抗體特異性和敏感性的廣泛可用的方法范圍從半定量到定性,每種方法都可能存在噪聲和解釋問題。因此強調報告抗體表征數據,以便對ChIP數據或試劑本身做出明智的判斷。當然也可能使用不嚴格遵守這些指南的試劑進行成功實驗。例如,在免疫印跡分析中檢測到的交叉反應蛋白可能不會干擾ChIP,因為該蛋白不附著于染色質。不同類型的二次測試可以幫助提供關于初始評估失敗的抗體可接受性的信心。
兩個測試(初次測試和二次測試)用于表征每個單克隆抗體或不同批次的相同多克隆抗體。初次和二次測試的順序受執(zhí)行每個測試所需工作量的影響,初次試驗更容易對大量抗體進行。轉錄因子抗體與組蛋白修飾抗體的測試有所不同。典型的工作流程見圖2B和圖2C。通過和未通過這些測試的抗體示例如圖2A所示。
聯盟還包括五個標準之一作為二次測試表征:(1)通過突變或RNAi“敲低”因子,(2)使用靶向蛋白質上多個表位或靶向同一復合物不同成員抗體的獨立ChIP實驗,(3)使用帶有表位標記的構建體進行免疫沉淀,(4)親和富集,然后進行質譜分析,或(5)結合位點基序(motif)分析。motif富集是最容易進行的檢測,但需要有關蛋白質結合序列的預先存在的信息,并假設motif在給定的細胞來源中被感興趣的因子唯一識別。具有第二抗體或靶向表位標記的構建體的ChIP和與ChIP結合的siRNA實驗提供了獨立的證據,表明靶位點受目標因子結合。質譜法對于在免疫印跡上觀察到多個或意外條帶并且懷疑存在剪接同種型,翻譯后修飾或降解的情況特別有用。此外,它可以精確識別潛在的ChIP信號替代源,通常具有新穎的生物學意義,可以通過額外的ChIP實驗進行測試。由于進行這些檢測需要大量精力和費用,聯盟標準僅要求進行一次二次測試。約20%(227個中的44個)的測試市售抗轉錄因子抗體符合這些表征指南,并且在ChIP-seq分析中也起作用。
迄今為止,55%的聯盟抗體已提交質譜數據,28%使用第二抗體、表位標簽或已知復合物的替代成員的ChIP數據,10%使用來自motif分析的數據,7%使用siRNA敲低數據。
驗證組蛋白修飾抗體涉及多個問題:(1)對其他細胞核/染色質蛋白的特異性,(2)對未修飾的組蛋白和非靶修飾的組蛋白殘基(例如H3K9me與H3K27me)的特異性,(3)對同一殘基(例如H3K9me1,H3K9me2和H3K9me3)的單甲基化,二甲基化和三甲基化的特異性,以及(4)批次間變異。對于所有聯盟組蛋白檢測,設定了應用免疫印跡分析和以下二級標準之一的標準:肽結合試驗(dot blots)、質譜分析、含有相關組蛋白修飾酶或突變體組蛋白敲低細胞系中的免疫反應性分析或基因組注釋富集。
圖2 來自抗體鑒定分析的代表性結果
(2)使用表位標記結構物的免疫共沉淀:
鑒于在獲得適合ChIP抗體方面存在挑戰(zhàn),一個有吸引力的替代方法是用外源性表位標記該因子,并用對該標記特異性表征良好的單克隆試劑進行免疫沉淀。表位標記通過使用可用于許多不同因子的高度特異性試劑來解決抗體變異和與多基因家族不同成員的交叉反應問題。然而,這引入了對表達水平以及標記是否會改變因子活性的擔憂。
(3)重復、測序深度、文庫復雜性和位點發(fā)現:
來自獨立細胞培養(yǎng)物、胚胎庫或組織樣本的生物重復實驗用于評估可重復性。初始 RNA 聚合酶 II ChIP-seq 實驗表明,兩個以上的重復沒有顯著改善位點發(fā)現。因此ENCODE聯盟設置了標準,即所有ChIP檢測都將在兩個獨立的生物重復上進行。不可重復發(fā)現率(IDR)分析方法現在被用于評估重復一致性和設置閾值。
對于典型的點源DNA結合因子,ChIP-seq鑒定出的陽性位點數量通常會隨著測序reads數量而增加。因為ChIP信號強度的連續(xù)統(tǒng)一體,而不是一組界限分明且離散的陽性位點。由于更多reads提供了更高的統(tǒng)計能力,因此可以在更大的數據集中更有信心地檢測到較弱的位點。圖3顯示了對11個人類ENCODE ChIP-seq數據集的peak calling分析,這些數據集獲得了深度序列數據(3000~1億比對讀長)。對于結合位點很少的因子,觀察到reads數明顯飽和,但對于所有其他因子,reads數繼續(xù)以不同的速率增加,包括使用100M比對reads calling>150000 peaks的情況。對peaks信號分析表明,該信號在較大的測序深度下始終保持平穩(wěn)。目前將20M比對reads作為點源轉錄因子的所有ENCODE ChIP實驗的最低值,通常中位數富集5~13倍;在20M reads鑒定出的新peaks富集程度約為最強peaks富集程度的20%(圖3C)。且通過測序到更深深度可以發(fā)現許多新peaks,其富集值為3~7倍。這些區(qū)域中的許多可能對應于低親和力位點和/或開放染色質區(qū)域,這些區(qū)域與TF的特異性結合較少。

圖3:測序深度決定peaks數
(A) 11個ENCODE ChIP-seq數據集,使用Peak-seq(0.01%FDR截止值)calling的peaks數。
(B) peaks calling和唯一比對reads數之間的關系,為11個ChIP-seq數據集calling peaks數。插圖為HepG2細胞的MAFK數據集的peaks數據,該數據集是目前測序最深的ENCODE ChIP-seq數據集(由于相對于其他數據集的reads明顯較大,因此單獨顯示)。數據集由細胞系和轉錄因子(例如細胞系HepG2,轉錄因子MAFK)表示。
(C) 隨著測序深度的增加,新calling peaks值的富集倍數變化。每增加2.5M唯一比對reads,計算新calling peaks與IgG對照數據集(在相同測序深度下測序)相比的中位數富集倍數,并將其繪制成圖表。
ChIP信號強度與生物調節(jié)活性的關系是當前積極研究的領域。已知增強子的生物活性在文獻中被定義,并且與ChIP-seq信號強度相比,其分布相當廣泛。一些高活性轉錄增強子可重復地顯示適度的ChIP信號(圖4B)。這意味著不能先驗地為ChIP peaks數或ChIP信號強度設置特定的目標閾值,以確保包含所有功能位點。因此,一個實際的目標是通過在合理的經費限制內,通過優(yōu)化免疫沉淀和深度測序來最大限度地發(fā)現位點。對于哺乳動物細胞中的點源因子,ENCODE對每個生物學重復至少產生10M唯一比對reads(每個因子至少提供20M唯一比對reads);蠕蟲和蒼蠅的每個重復至少產生2M唯一比對reads。對于廣泛的富集區(qū)域,目前正在研究適當數量的唯一比對reads,但目前哺乳動物細胞的大多數實驗,每個重復至少產生20M唯一比對reads,蠕蟲和蒼蠅每個重復至少產生5M唯一比對reads。
圖4:評估ChIP-seq實驗質量的標準
(A) 文庫的復雜性。表示比對到正(紅色)或負鏈(藍色)的單個read。
(B) 功能性調控元件與ChIP-seq信號強度的分布。在分化的小鼠肌細胞中,針對肌細胞生成素(肌肉分化的主要調節(jié)劑)進行ChIP-seq。雖然許多廣泛表征的肌肉調節(jié)元件表現出強烈的肌生成素結合,但大量已知的功能位點處于結合強度連續(xù)體的低端。
(C) calling的peaks數量與ChIP富集的關系。除了特殊情況外,成功的實驗可以為大多數TF鑒定出數千到數萬個peaks,數百或低數千的數字表示失敗。使用具有默認閾值的MACS calling peaks。
(D) 生成交叉相關圖。通過將reads按照比對到的鏈方向移動增減堿基對,并計算了每條鏈的每個位置reads數向量之間的Pearson相關性。reads覆蓋以wigglegram圖表示。
(E) 在ChIP實驗中通常觀察到兩個交叉相關peaks,一個對應于讀長(“phantom”peaks),另一個對應于文庫的平均片段長度。
(F) 對于1052個人ChIP-seq實驗,calling區(qū)域內的reads數與相對交叉相關系數之間的相關性。
(G) 兩個peaks的絕對高度和相對高度是ChIP-seq實驗成功的有用決定因素。高質量IP的特征是ChIP peaks遠高于“phantom”peaks,而在失敗的實驗中通常很小或沒有這樣的峰。這個指標有助于判斷實驗中抗體對目標蛋白的富集效果。
位點發(fā)現和可重復性也受到ChIP-seq測序文庫復雜性的影響(圖4A)。將文庫復雜性定義為非冗余DNA片段的比例。隨著文庫測序深度的增加,最終達到了一個點,復雜性將耗盡,相同的PCR擴增DNA片段將被重復測序。當在IP期間分離出非常少量的DNA或由于文庫構建問題時,文庫復雜性可能會降低。
一個有用的復雜性度量是數據集中非冗余比對 reads比例(非冗余比例或NRF),將其定義為基因組中唯一可比對reads比對到的位點與唯一可比對reads總數之間的比率,類似于冗余度量。NRF隨著測序深度的增加而降低,對于點源TF,目標在10M唯一比對reads的NRF≥0.8。隨著測序技術改進和每條泳道的reads達到100M將成為可能,即使來自點源因子庫的復雜文庫也可能在比必要的深度更大的深度進行測序。為了最大化每次DNA測序運行可以獲得的信息并防止過度測序,可以使用條形碼和合并策略。
(4)對照樣品(Control sample):
適當的對照數據集對于d任何ChIP-seq實驗的分析都至關重要,因為超聲處理過程中的DNA斷裂不均勻。例如開放染色質的某些區(qū)域優(yōu)先在超聲處理的樣品中表示,還有一些平臺特定的測序效率偏差會導致不均勻性。有兩種產生對照DNA樣本的基本方法減輕了這些問題對結合位點鑒定的影響:(1)從與免疫沉淀DNA相同條件下交聯和片段化的細胞中分離DNA (“Input” DNA);(2)使用與不相關的非核抗原(“IgG”對照)反應的對照抗體進行“模擬”ChIP反應。對于這兩種類型的對照,編碼組序列的深度至少等于且優(yōu)選大于ChIP樣本的深度。雖然IgG對照比“Input”對照更接近于模擬ChIP實驗,但重要的是,IgG對照免疫沉淀可恢復足夠的DNA,以建立一個與實驗樣品具有足夠高復雜性的文庫;否則,使用該對照進行的結合位點識別可能會有很大偏差。
無論使用何種類型的對照,ENCODE和modENCODE組都會對每個細胞系,發(fā)育階段和不同的培養(yǎng)條件/處理進行單獨的對照實驗,因為影響染色質制備的倍性、基因型和表觀遺傳特征存在已知和未知的差異。為了作為有效的對照,使用相同的協(xié)議來構建ChIP和對照測序文庫(即與PCR擴增次數、片段大小等相同)。已經觀察到具有特別強的超聲波偏差的對照文庫,它們可能會對peaks calling產生不利影響。ENCODE/modENCODE組還盡可能為每批超聲處理的樣品生成單獨的對照,以控制可能的超聲處理變化。
(5)Peak calling:
將reads比對到基因組后,使用peaks calling軟件來鑒定ChIP富集區(qū)域。SPP、PeakSeq和MACs這些算法的結果output通常按絕對信號(reads數)或通過計算的富集顯著性(P值和錯誤發(fā)現率)對區(qū)域進行排序。因為ChIP信號強度是一個連續(xù)體,弱位點多于強位點(圖4B),最終peaks列表的組成在很大程度上取決于特定的參數設置和使用的算法以及實驗本身的質量。閾值太寬松會導致每次重復假陽性比例很高,但后續(xù)分析可以從最終聯合peaks確定中去除假陽性。不同的peak calling算法依賴于不同的統(tǒng)計模型來計算P-values和錯誤發(fā)現率(FDR),這意味著來自不同軟件包的顯著性不能直接比較。當使用標準的peak calling閾值時,成功的實驗通常會為哺乳動物基因組中的大多數TF識別數千到數萬個peaks。在所有情況下,在peak calling中使用適當的對照實驗都很重要。
將離散的富集區(qū)域稱為廣源因子或混合源因子更具挑戰(zhàn)性,并且處于發(fā)展的早期階段。識別這些區(qū)域的方法正在出現(如ZINBA、MACS2、MACS的更新版本),專門用于處理混合信號類型。
參考文獻:
Landt SG, Marinov GK, Kundaje A, Kheradpour P, Pauli F, Batzoglou S, Bernstein BE, Bickel P, Brown JB, Cayting P, Chen Y, DeSalvo G, Epstein C, Fisher-Aylor KI, Euskirchen G, Gerstein M, Gertz J, Hartemink AJ, Hoffman MM, Iyer VR, Jung YL, Karmakar S, Kellis M, Kharchenko PV, Li Q, Liu T, Liu XS, Ma L, Milosavljevic A, Myers RM, Park PJ, Pazin MJ, Perry MD, Raha D, Reddy TE, Rozowsky J, Shoresh N, Sidow A, Slattery M, Stamatoyannopoulos JA, Tolstorukov MY, White KP, Xi S, Farnham PJ, Lieb JD, Wold BJ, Snyder M. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia. Genome Res. 2012 Sep;22(9):1813-31.