ssGSEA基本原理
對于一個基因表達矩陣,ssGSEA首先對樣本的所有基因的表達水平進行排序獲得其在所有基因中的秩次rank。然后對于輸入的基因集,從基因集中尋找表達數據里存在的基因并計數,并將這些基因的表達水平求和。接著基于上述求值,計算通路中每個基因的富集分數,并進一步打亂基因順序重新計算富集分數,重復一千次,***根據基因富集分數的分布計算p值整合基因集**終富集分數。
數據要求
1、特定感興趣的基因集(通常為免疫細胞表面marker genes),列出基因集中基因
2、基因表達矩陣,為經過log2標準化的芯片數據或者RNA-seq count數數據(基因名形式與基因集對應)
下游分析
免疫細胞浸潤分數相關性(corralation)分析 利用甲基化數據分析樣本的拷貝數變異。北京成果發表指導數據科學歡迎咨詢
t-SNE(t分布隨機鄰域嵌入)是一種用于探索高維數據的非線性降維算法。它將多維數據映射到適合于人類觀察的兩個或多個維度。t-SNE非線性降維算法通過基于具有多個特征的數據點的相似性識別觀察到的簇來在數據中找到模式。另外t-SNE的輸出可以作為其他分類算法的輸入特征。因為t-SNE算法定義了數據的局部和全局結構之間的軟邊界。t-SNE幾乎可用于所有高維數據集,廣泛應用于圖像處理,自然語言處理和語音處理。在生物信息中可廣泛應用于基因表達數據、基因甲基化數據、基因突變數據等,能夠直觀地對不同數據集進行比較?;驹韽姆椒ㄉ蟻碇v,t-SNE本質上是基于流行學習(manifoldlearning)的降維算法,不同于傳統的PCA和MMD等方法,t-SNE在高維用normalizedGaussiankernel對數據點對進行相似性建模。相應的,在低維用t分布對數據點對進行相似性(直觀上的距離)建模,然后用KL距離來拉近高維和低維空間中的距離分布。 北京成果發表指導數據科學歡迎咨詢調控區域ChiP-seq信號分布圖。
GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關注的GO條目或KEGGPathway)在兩個生物學狀態(如**與對照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學意義。SubtypeGSEA是在GSEA的基礎上對不同亞型樣本中重要通路的富集情況進行組間比較,能直觀比較不同亞型中相同通路富集情況?;驹鞧SEA主要分為基因集進行排序、計算富集分數(EnrichmentScore,ES)、估計富集分數的***性水平并進行多重假設檢驗三個步驟。**步對輸入的所有基因集L進行排序,通常來說初始輸入的基因數據為表達矩陣,排序的過程相當于特定兩組中(case-control、upper-lower等等)基因差異表達分析的過程。根據所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認是signal2noise,GSEA官網有提供公式,也可以選擇較為普遍的foldchange),對基因進行排序,并且Z-score標準化。第二步是GSEA的**步驟,通過分析預先定義基因集S在**步獲得的基因序列上的分布計算富集指數EnrichmentScore,并繪制分布趨勢圖Enrichmentplot。每個基因在基因集S的EnrichmentScore取決于這個基因是否屬于基因集S及其差異度量(如foldchange)。
GeneInteraction基因互作:基因相互作用指miRNA、lncRNA、circRNA或其它RNA介導DNA轉錄,從而影響mRNA的表達過程。通俗意義上來說,基因互作關系指基于序列預測的靶基因對。miRNA通過與靶mRNA的結合,或促使mRNA降解,或阻礙其翻譯,從而***目的基因的表達。競爭性內源RNA網絡是靶基因預測的研究深入,簡稱ceRNA網絡。通過進行ceRNA網絡的分析,我們能從一個更為宏觀的角度來解釋轉錄體如何構建基因表達調控網絡,從而進一步挖掘基因在其中的調控機制?;驹恚簃iRNA主要通過與靶基因的非翻譯區(UTR)結合而發揮其作用,對miRNA和mRNA、lncRNA、circRNA結合進行的預測稱為靶基因預測。靶基因預測使用軟件根據miRNA和靶基因間的結合的規律預測結合基因對。在生物體內,miRNA可以通過與proteincoding特異性結合,影響相關基因的表達,從而參與調控細胞內的各項功能。ceRNA具有miRNA結合位點,能后競爭性地結合miRNA,***miRNA對靶基因的調控。例如lncRNA與miRNA競爭性結合,影響miRNA調控mRNA的過程,**終導致的mRNA表達失調。我們使用基于序列預測的軟件對差異分析得到的miRNA與mRNA,lncRNA,circRNA進行靶點預測和ceRNA網絡分析。 云生物立足于上海,提供相關數據科研咨詢與服務。
RoastROAST是一種差異表達分析方法,有助于提高統計能力、組織和解釋結果以及在不同實驗中的關聯表達模式,一般適用于microarray、RNA-seq的表達矩陣,用limma給全部基因做差異表達分析,不需要篩差異表達基因?;驹恚篟OAST是一種假設驅動的測試,對結果基因集做富集分析,富集分析考慮基因集中基因的方向性(上調或下調)和強度(log2倍變化),判斷上/下調基因是否***富于集目標基因集;ROAST使用rotation,一種MonteCarlotechnology的多元回歸方法,適用于樣本數量較少的情況;roast檢驗一個geneset,對于復雜矩陣,使用mroast做multipleroasttests。富集分析結果用barcodeplot展示,使上/下調基因在目標基因集中的分布可視化。數據要求:表達矩陣。 與復旦大學問附屬醫院合作,開發人血液外泌體中RNA的數據庫。北京成果發表指導數據科學歡迎咨詢
OmicCircos圖可以對感興趣的多個基因,展示其染色體的位置、拷貝數變異等多個特征。北京成果發表指導數據科學歡迎咨詢
genomeview(基因瀏覽圖):genomeView是對基因組的可視化,可以直觀展示RNA-seq和ChIP-seq的信號,證實轉錄因子結合對基因轉錄的影響等等。數據要求:RNA-seq和ChIP-seq等數據。應用示例:文獻1:Genomic landscape and evolution of metastatic chromophobe renal cell carcinoma.(于2017年6月發表在JCI Insight.,影響因子6.041)。本文對轉移性腎嫌色細胞*進行了系統的基因組研究,文中繪制基因流覽圖對整個基因組數據進行了可視化。轉移性腎嫌色細胞*的基因組景觀和演化。 北京成果發表指導數據科學歡迎咨詢