GSEA基本原理從方法上來講,GSEA主要分為基因集進(jìn)行排序、計(jì)算富集分?jǐn)?shù)(EnrichmentScore,ES)、估計(jì)富集分?jǐn)?shù)的***性水平并進(jìn)行多重假設(shè)檢驗(yàn)三個(gè)步驟。**步對(duì)輸入的所有基因集L進(jìn)行排序,通常來說初始輸入的基因數(shù)據(jù)為表達(dá)矩陣,排序的過程相當(dāng)于特定兩組中(case-control、upper-lower等等)基因差異表達(dá)分析的過程。根據(jù)所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認(rèn)是signal2noise,GSEA官網(wǎng)有提供公式,也可以選擇較為普遍的foldchange),對(duì)基因進(jìn)行排序,并且Z-score標(biāo)準(zhǔn)化。第二步是GSEA的**步驟,通過分析預(yù)先定義基因集S在**步獲得的基因序列上的分布計(jì)算富集指數(shù)EnrichmentScore,并繪制分布趨勢(shì)圖Enrichmentplot。每個(gè)基因在基因集S的EnrichmentScore取決于這個(gè)基因是否屬于基因集S及其差異度量(如foldchange)。差異度量越大基因的EnrichmentScore權(quán)重越大,如果基因在基因集S中則EnrichmentScore取正,反則取負(fù)。將基因集L在基因集S里的所有基因的EnrichmentScore一個(gè)個(gè)加起來,就是Enrichmentplot上的EnrichmentScore趨勢(shì),直到EnrichmentScore達(dá)到**值,就是基因集S**終的EnrichmentScore。第三步是為了檢驗(yàn)第二部獲得結(jié)果的統(tǒng)計(jì)學(xué)意義。 提供語言潤(rùn)色、圖表調(diào)整、格式修改等工作模塊。成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)共同合作
mutationEvents**已存在的基因突變會(huì)影響其他基因的突變,突變分析時(shí)確定這些基因突變潛在的相互作用,能更好地了解健康細(xì)胞轉(zhuǎn)化為*細(xì)胞的過程和機(jī)制。DISCOVER,一種針對(duì)基因突變的統(tǒng)計(jì)檢驗(yàn)工具,幫助尋找***的基因突變間互斥性和共現(xiàn)性。一般可應(yīng)用的研究場(chǎng)景:探索一組基因是否在**中存在互斥性和共現(xiàn)性;基于基因突變的互斥性和共現(xiàn)性,研究**發(fā)***展的潛在機(jī)制。基本原理:DISCOVER(DiscreteIndependenceStatisticControllingforObservationswithVaryingEventRates)是一種用于檢測(cè)**基因組數(shù)據(jù)的共現(xiàn)性和互斥性的新統(tǒng)計(jì)檢驗(yàn)方法。與Fisher'sexacttest等用于這些任務(wù)的傳統(tǒng)方法不同的是,DISCOVER基于一個(gè)空模型,該模型考慮了總體**特異性的變化率,從而決定變化率的同時(shí)發(fā)生的頻率是否高于或低于預(yù)期。該方法避免了共現(xiàn)檢測(cè)中的虛假關(guān)聯(lián),提高了檢測(cè)互斥性的統(tǒng)計(jì)能力。DISCOVER的性能與其他幾個(gè)已發(fā)布的互斥性測(cè)試相比,在整個(gè)***性水平范圍內(nèi),DISCOVER在控制假陽性率的同時(shí)更敏感。 數(shù)據(jù)庫(kù)建設(shè)數(shù)據(jù)科學(xué)歡迎咨詢WGCNA其譯為加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析。
GSEA全名為GeneSetEnrichmentAnalysis(基因集富集分析)。用以分析特定基因集(如關(guān)注的GO條目或KEGGPathway)在兩個(gè)生物學(xué)狀態(tài)(如**與對(duì)照,高齡與低齡)中是否存在差異。能夠研究基因變化的生物學(xué)意義。SubtypeGSEA是在GSEA的基礎(chǔ)上對(duì)不同亞型樣本中重要通路的富集情況進(jìn)行組間比較,能直觀比較不同亞型中相同通路富集情況。基本原理GSEA主要分為基因集進(jìn)行排序、計(jì)算富集分?jǐn)?shù)(EnrichmentScore,ES)、估計(jì)富集分?jǐn)?shù)的***性水平并進(jìn)行多重假設(shè)檢驗(yàn)三個(gè)步驟。**步對(duì)輸入的所有基因集L進(jìn)行排序,通常來說初始輸入的基因數(shù)據(jù)為表達(dá)矩陣,排序的過程相當(dāng)于特定兩組中(case-control、upper-lower等等)基因差異表達(dá)分析的過程。根據(jù)所有基因在兩組樣本的差異度量不同(共有六種差異度量,默認(rèn)是signal2noise,GSEA官網(wǎng)有提供公式,也可以選擇較為普遍的foldchange),對(duì)基因進(jìn)行排序,并且Z-score標(biāo)準(zhǔn)化。第二步是GSEA的**步驟,通過分析預(yù)先定義基因集S在**步獲得的基因序列上的分布計(jì)算富集指數(shù)EnrichmentScore,并繪制分布趨勢(shì)圖Enrichmentplot。每個(gè)基因在基因集S的EnrichmentScore取決于這個(gè)基因是否屬于基因集S及其差異度量(如foldchange)。
STEM基因表達(dá)趨勢(shì)分析數(shù)據(jù)要求表達(dá)譜芯片或測(cè)序數(shù)據(jù)(已經(jīng)過預(yù)處理)下游分析得到***富集的時(shí)間表達(dá)模式之后的分析有:1.時(shí)間表達(dá)模式中基因的功能富集2.時(shí)間表達(dá)模式中基因表達(dá)與性狀之間的相關(guān)性挖掘模塊的關(guān)鍵信息:1.找到時(shí)間表達(dá)模式中的**基因2.利用關(guān)系預(yù)測(cè)該時(shí)間表達(dá)模式功能文獻(xiàn)1:DynamicEBF1occupancydirectssequentialepigeneticandtranscriptionaleventsinB-cellprogramming(于2018年1月發(fā)表在GenesDev.,影響因子)EBF1動(dòng)態(tài)占據(jù)在B細(xì)胞中對(duì)序列表觀遺傳和轉(zhuǎn)錄過程的影響該文獻(xiàn)采用基因表達(dá)趨勢(shì)分析,探尋了EBF1誘導(dǎo)前后25kb轉(zhuǎn)錄起始位點(diǎn)內(nèi)基因轉(zhuǎn)錄水平的差異,來尋找EBF1對(duì)特定功能基因的影響以及造成影響的時(shí)間節(jié)點(diǎn)。文獻(xiàn)2:ComprehensivetranscriptionalprofilingofNaCl-stressedArabidopsisrootsrevealsnovelclassesofresponsivegenes(于2016年10月發(fā)表在BMCPlantBiol.,影響因子)該文獻(xiàn)采用基因表達(dá)趨勢(shì)分析,研究了高濃度鹽水作用不同時(shí)間下擬南芥根的基因表達(dá)差異,來探尋在遇到高濃度鹽水時(shí)擬南芥在基因?qū)用嫔系膽?yīng)對(duì)方式。 參考國(guó)內(nèi)外數(shù)據(jù)資源,根據(jù)需求制定構(gòu)建方案。
不同分組的全基因組拷貝數(shù)變化的比較:**初目的:不同分組的拷貝數(shù)變異在染色體水平和染色體臂水平的展示和比較。應(yīng)用:不同分組的全基因組拷貝數(shù)變化的比較,展示genome-wideDNAcopy-numberprofiles。不同染色體臂的變異與臨床表型息息相關(guān)。輸入數(shù)據(jù)格式:一個(gè)表征每個(gè)樣本的染色體變異(gain,balance,loss)的數(shù)值矩陣和樣本分組信息。或者拷貝數(shù)的原始結(jié)果,可處理成所需矩陣。參考文獻(xiàn):(2)::本文計(jì)算出病人的拷貝數(shù)變異情況后,按照之前病人的分組比較了不同分組的染色體變異的異同,找到特定的染色體變異模式。確定了各組的特征,如lmonosomy2inPFB2,monosomy8inPFB3,monosomy3inPFB1,andgainof1qinPFB1.。 circos圖通過圓圈和連線展示多個(gè)亞組之間的關(guān)系,包括且不限于基因、基因片段、亞型。成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)共同合作
利用甲基化數(shù)據(jù)分析樣本的拷貝數(shù)變異。成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)共同合作
bubbles(不同分組的基因表達(dá)或通路富集展示):Bubbles可以同時(shí)展示pvalue和表達(dá)量。例如展示motif的pvalue和motif對(duì)應(yīng)的轉(zhuǎn)錄因子的表達(dá)量,方便快速看出轉(zhuǎn)錄因子富集且高表達(dá)所在的group,預(yù)示著該分組對(duì)細(xì)胞狀態(tài)的改變(例如細(xì)胞分化、轉(zhuǎn)移、應(yīng)激)起關(guān)鍵調(diào)控作用;例如做基因功能富集分析時(shí),展示富集的通路qvalue和基因數(shù)量或geneRatio。
基本原理:
Bubbles的實(shí)質(zhì)是分組數(shù)據(jù)下基因表達(dá)量或通路內(nèi)基因數(shù)量的可視化,同時(shí)可以展示pvalue。
數(shù)據(jù)要求:
表達(dá)矩陣,分組 成果發(fā)表指導(dǎo)數(shù)據(jù)科學(xué)共同合作