構(gòu)建迄今規(guī)模最大的小鼠多器官N -糖蛋白組數(shù)據(jù)庫。聚焦小鼠四個(gè)關(guān)鍵腦區(qū)開展時(shí)空維度糖蛋白組學(xué)研究,揭示糖基化在衰老及神經(jīng)退行性疾病中的變化規(guī)律,并搭建在線數(shù)據(jù)庫 NGlycoMiner,為相關(guān)研究提供數(shù)據(jù)支持。
《Nature Communications》(簡稱 “Nat Commun”)是自然科研(Nature Research)旗下的國際頂級開放獲取(Open Access)綜合性學(xué)術(shù)期刊,2010年正式創(chuàng)刊,旨在發(fā)表自然科學(xué)領(lǐng)域(涵蓋生物、化學(xué)、物理、地球科學(xué)、醫(yī)學(xué)等)具有重要科學(xué)意義、但未達(dá)到《Nature》主刊突破性高度的原創(chuàng)研究成果,填補(bǔ)了頂級主刊與專業(yè)子刊間的發(fā)表空白。
出版周期: Bimonthly;
影響因子:2024-2025最新影響因子為15.7,五年影響因子為17.2;
ISSN:2041-1723;
發(fā)文量:2024 年發(fā)文量為10749篇;
版面費(fèi):$6790.00/篇;
一、研究背景
蛋白質(zhì)糖基化作為廣泛存在的關(guān)鍵蛋白質(zhì)翻譯后修飾,其聚糖結(jié)構(gòu)具有多樣性、復(fù)雜性與動(dòng)態(tài)性,對蛋白質(zhì)功能影響深遠(yuǎn),在生理與病理過程中均發(fā)揮核心作用。N-糖蛋白由聚糖連接多肽鏈特定天冬酰胺殘基形成,其合成受多種因素調(diào)控,識(shí)別糖蛋白并表征位點(diǎn)特異性聚糖,對解析健康與疾病機(jī)制至關(guān)重要。但基于質(zhì)譜的N-糖蛋白質(zhì)組學(xué)面臨諸多挑戰(zhàn),如異質(zhì)性、糖肽豐度低、富集不完全,且質(zhì)譜圖質(zhì)量差、復(fù)雜,導(dǎo)致光譜識(shí)別率低、假發(fā)現(xiàn)率高。雖科研人員優(yōu)化樣品制備、改進(jìn)技術(shù)與開發(fā)軟件,仍未達(dá)理想識(shí)別深度與精度。此前用pGlyco 2.0構(gòu)建的小鼠數(shù)據(jù)集,已無法滿足當(dāng)前AI算法對糖肽光譜研究的高質(zhì)量訓(xùn)練數(shù)據(jù)需求,成為領(lǐng)域瓶頸。
二、關(guān)鍵技術(shù)總結(jié)
樣本處理:選取小鼠多種組織(腦、肺、腎、肝、心臟)及疾病模型腦區(qū)樣本,采用含蛋白酶抑制劑的裂解緩沖液勻漿組織,經(jīng)DTT還原、IAA烷基化、丙酮沉淀處理蛋白質(zhì),再用胰蛋白酶單獨(dú)消化或與Lys-C、Glu-C組合消化蛋白質(zhì),最后通過Sep-Pak C18柱脫鹽。
糖肽富集:采用ZIC-HILIC和Sepharose CL-4B兩種方法。ZIC-HILIC法將肽段加載到含 ZIC-HILIC介質(zhì)的微柱,經(jīng)多步洗滌后梯度洗脫;Sepharose CL-4B法讓肽段與介質(zhì)振蕩結(jié)合,洗滌后孵育回收糖肽。
液相色譜-質(zhì)譜分析:常規(guī)組織樣本用Orbitrap Fusion質(zhì)譜儀結(jié)合Proxeon EASY-nLC II液相色譜泵,以特定流動(dòng)相和梯度洗脫;疾病模型腦區(qū)樣本用配備FAIMSpro接口的Orbitrap Exploris 480質(zhì)譜儀與Easy-nLC 1200系統(tǒng)聯(lián)用,采用不同梯度洗脫,均通過HCD fragmentation獲取MS/MS數(shù)據(jù)。
數(shù)據(jù)處理與分析:從UniProt下載小鼠蛋白質(zhì)數(shù)據(jù)庫,用pGlyco3、StrucGP、MSFragger-Glyco、Glyco-Decipher四種軟件進(jìn)行數(shù)據(jù)庫搜索;基于XIC面積定量,采用總強(qiáng)度歸一化處理數(shù)據(jù);通過Python和R進(jìn)行生物信息學(xué)分析,包括二級結(jié)構(gòu)分布分析、PCA、層次聚類、Pearson相關(guān)分析、GO和KEGG通路富集分析,以及WGCNA構(gòu)建共調(diào)控網(wǎng)絡(luò)。
驗(yàn)證與數(shù)據(jù)庫構(gòu)建:用Western blot 分析驗(yàn)證糖蛋白表達(dá),通過PNGase F處理去除N - 糖鏈輔助驗(yàn)證;基于Django Web框架、MySQL數(shù)據(jù)庫、Python后端及HTML/CSS/JavaScript 前端,結(jié)合Nginx和uWSGI構(gòu)建N-GlycoMiner 數(shù)據(jù)庫,整合實(shí)驗(yàn)數(shù)據(jù)與文獻(xiàn)數(shù)據(jù)。
三、主要研究成果
選取了五種小鼠組織進(jìn)行深度分析,包括腦、肺、腎、肝和心臟;使用了三種酶解方案以最大化肽段覆蓋度:Trypsin(胰蛋白酶)、Trypsin + Lys-C、Trypsin + Glu-C;Trypsin + Glu-C;采用ZIC-HILIC(親水相互作用色譜)和Sepharose CL-4B(基于凝集素的富集)兩種糖肽富集策略以捕獲更廣泛的糖肽;共進(jìn)行了154次 LC-MS/MS運(yùn)行,總耗時(shí) 936小時(shí)(39天),最終獲得了685萬張 包含氧鎓離子的糖肽質(zhì)譜圖(Glyco-spectra)。
使用四款主流糖蛋白組學(xué)軟件(pGlyco3, StrucGP, MSFragger-Glyco, Glyco-Decipher)對數(shù)據(jù)進(jìn)行聯(lián)合搜索和鑒定,以評估各軟件性能并提高鑒定可信度。展示了不同組織中鑒定到的糖肽數(shù)量,證明了數(shù)據(jù)集的深度。分析了同一糖基化位點(diǎn)上連接不同聚糖的現(xiàn)象。通過圖表對比,直觀顯示了糖基化模式在不同組織間的顯著差異。
對阿爾茨海默病(AD)、帕金森病(PD)、衰老和年輕對照組的小鼠海馬體、前額葉皮層、紋狀體、和黑質(zhì)進(jìn)行了時(shí)空分析。旨在揭示糖基化在腦老化與神經(jīng)退行性疾病中的時(shí)空特異性變化。
構(gòu)建了一個(gè)名為 N-GlycoMiner 的在線數(shù)據(jù)庫平臺(tái)(www.NGlycoMiner.com)。用戶可查詢本研究中所有鑒定到的糖蛋白、糖基化位點(diǎn)和糖型的詳細(xì)信息。網(wǎng)站提供理論糖基化分析功能,用戶可上傳FASTA文件,自動(dòng)預(yù)測潛在的N-糖基化位點(diǎn)和生成模擬糖肽。整合了AlphaFold2預(yù)測的蛋白結(jié)構(gòu),并在結(jié)構(gòu)上標(biāo)注已鑒定的糖基化位點(diǎn)。
核心結(jié)果是通過一個(gè)極其全面和深入的工作流程,整合了多維度的實(shí)驗(yàn)設(shè)計(jì)、多軟件的數(shù)據(jù)分析、疾病時(shí)空模型以及一個(gè)強(qiáng)大的數(shù)據(jù)庫資源,成功構(gòu)建了迄今為止最大、最深度的小鼠N-糖蛋白組圖譜,為揭示糖基化在生物學(xué)中的復(fù)雜作用提供了強(qiáng)大的數(shù)據(jù)基礎(chǔ)和研究平臺(tái)。
2、多軟件鑒定結(jié)果的綜合評估與數(shù)據(jù)質(zhì)量驗(yàn)證
鑒定數(shù)量差異:四款軟件(pGlyco3, StructGP, MSFragger-Glyco, Glyco-Decipher)共鑒定出約104萬個(gè)糖肽譜圖匹配(GPSMs),但各軟件鑒定數(shù)量存在顯著差異。在前體、糖型層次上,各軟件鑒定數(shù)量排名一致(Glyco-Decipher > MSFragger-Glyco > pGlyco3 > StructGP);但在糖基化位點(diǎn)、糖蛋白層次上,排名出現(xiàn)變化,揭示了不同軟件的設(shè)計(jì)偏好和局限性。僅有 160,928個(gè)GPSMs(占總GPSMs的15.5%) 被所有四款軟件一致鑒定為相同的糖肽前體,被視為高可信度數(shù)據(jù)。基于軟件間的一致性,提出了一個(gè)四級可信度系統(tǒng):
高可信度 (High-confidence): 四款軟件一致 (15.5%);中可信度 (Moderate-confidence): 至少兩款軟件一致 (37.7%);低可信度 (Low-confidence): 僅一款軟件鑒定 (38.7%);模糊鑒定 (Ambiguous): 不同軟件給出完全不同結(jié)果 (8.1%);其中,pGlyco3表現(xiàn)出最高的一致性(最可靠),而MSFragger-Glyco雖然靈敏度高(鑒定數(shù)量多),但與其他軟件的不一致性也最高。
圖2、多軟件鑒定綜合分析結(jié)果
使用不同可信度的數(shù)據(jù)集重新訓(xùn)練了DeepGP和DeepGlyco等AI模型,使用中高可信度數(shù)據(jù)合并訓(xùn)練的模型,其預(yù)測譜圖與實(shí)驗(yàn)譜圖的余弦相似度中位數(shù)高達(dá)0.95,性能優(yōu)于文獻(xiàn)中已報(bào)道的模型,使用中高可信度數(shù)據(jù)訓(xùn)練的模型,在保留時(shí)間(IRT)預(yù)測上也表現(xiàn)出更高的準(zhǔn)確性(皮爾遜相關(guān)系數(shù)更高),5折交叉驗(yàn)證表明,基于高可信度數(shù)據(jù)訓(xùn)練的DeepGlyco模型預(yù)測結(jié)果極其穩(wěn)定且準(zhǔn)確(點(diǎn)積中位數(shù)>0.986)。
去除模糊鑒定后,最終構(gòu)建的數(shù)據(jù)集包含:91,972個(gè) 唯一前體糖肽,62,216個(gè)唯一糖型,8,939個(gè)糖基化位點(diǎn),4,563個(gè)糖蛋白;本研究鑒定到的糖蛋白和糖基化位點(diǎn)數(shù)量遠(yuǎn)超UniProt數(shù)據(jù)庫中的記錄,分別多出2,847個(gè)糖蛋白和5,177個(gè)位點(diǎn),極大地?cái)U(kuò)展了已知的小鼠N-糖蛋白組圖譜。盡管投入巨大,但總譜圖的鑒定率僅為11.6%,仍有88.4%的譜圖未被鑒定,凸顯了當(dāng)前糖蛋白組學(xué)技術(shù)在譜圖解析能力上的巨大挑戰(zhàn)和未來改進(jìn)空間。
研究通過多軟件交叉驗(yàn)證,構(gòu)建了一個(gè)具有可信度分級的、超大規(guī)模且高質(zhì)量的小鼠N-糖蛋白組數(shù)據(jù)集。該數(shù)據(jù)集不僅本身規(guī)模空前,而且能顯著提升AI模型的預(yù)測性能,為糖蛋白組學(xué)領(lǐng)域的算法開發(fā)和生物學(xué)發(fā)現(xiàn)提供了寶貴的資源。同時(shí),結(jié)果也客觀地揭示了當(dāng)前技術(shù)仍存在解析度不足的局限性。
3、小鼠N-糖蛋白組的綜合分析
質(zhì)譜分布分析結(jié)果表明,完整糖肽分子量主要分布在 2000-6000 Da 范圍內(nèi),而去糖基化肽段質(zhì)量多在 1000-2500 Da 之間,與理論預(yù)測(所有含N-X-S/T/C序列的肽段)的分布相比,揭示了質(zhì)譜技術(shù)在可檢測質(zhì)量范圍上的局限性。腦組織中的聚糖整體上明顯小于其他組織,這表明大腦擁有獨(dú)特的糖基化譜,提示其糖基化功能可能與其他器官不同。利用AlphaFold2和DSSP分析了糖蛋白的二級結(jié)構(gòu)。結(jié)果顯示,N-糖基化位點(diǎn)更多地位于Coil(無規(guī)卷曲)和 Bend(彎曲)區(qū)域,其次是 β-strand(β-折疊) 和 Turn(轉(zhuǎn)角) 區(qū)域。構(gòu)建了三維氣泡圖來可視化糖蛋白的異質(zhì)性,三個(gè)維度分別為:X軸,糖蛋白;Y軸,每個(gè)蛋白上的糖基化位點(diǎn)數(shù)量;Z軸,每個(gè)蛋白上的糖型總數(shù);平均每個(gè)蛋白有 ~2個(gè) 糖基化位點(diǎn),每個(gè)位點(diǎn)有 ~7種 不同的糖型(微觀異質(zhì)性)。腦組織的糖蛋白表現(xiàn)出最高的微異質(zhì)性,而心臟組織的最低。某些蛋白在不同組織中表現(xiàn)出截然不同的糖基化模式,如CD36(血小板糖蛋白4)在大腦中僅檢測到1個(gè)糖基化位點(diǎn)(N417)和2種糖型。而在心臟和肺中檢測到全部7個(gè) 理論位點(diǎn),其中心臟中有多達(dá) 258種 糖型。蛋白質(zhì)印跡(Western Blot)驗(yàn)證實(shí)驗(yàn)結(jié)果與質(zhì)譜數(shù)據(jù)一致,心臟和肺中糖基化CD36的蛋白表達(dá)量遠(yuǎn)高于大腦。使用PNGase F酶去除N-糖鏈后,條帶發(fā)生遷移,證實(shí)了CD36的修飾主要是N-糖基化。這表明,不同組織間CD36糖基化水平的差異主要源于其蛋白表達(dá)水平本身的高低。CD36在心臟和脂肪組織中負(fù)責(zé)脂肪酸攝取,并與肺癌發(fā)展有關(guān)。其糖基化的組織特異性暗示了糖基化對于調(diào)控CD36在不同組織中執(zhí)行特定功能至關(guān)重要。
圖3、小鼠N-糖蛋白組的綜合分析結(jié)果
研究利用超深度數(shù)據(jù)集,全面描繪了小鼠N-糖蛋白組的整體特征,揭示了糖基化修飾在分子大小、蛋白結(jié)構(gòu)偏好和異質(zhì)性程度上的規(guī)律。最重要的是,它通過令人信服的數(shù)據(jù)(包括對CD36的生化驗(yàn)證)證實(shí)了糖基化具有顯著的組織特異性,這種特異性不僅體現(xiàn)在糖型種類上,更與底層蛋白的表達(dá)水平和器官的功能需求密切相關(guān)。這部分分析為后續(xù)探索大腦等特定器官在衰老和疾病中的糖基化變化奠定了堅(jiān)實(shí)的基礎(chǔ)。
系統(tǒng)揭示了小鼠五種組織中N-糖基化的高度特異性及其功能關(guān)聯(lián)。主成分分析顯示,腦組織的糖基化譜與其他組織截然不同,腎臟也展現(xiàn)出獨(dú)特的聚糖模式。無監(jiān)督聚類識(shí)別出四個(gè)聚糖表達(dá)簇:腦富集簇以巖藻糖化和NeuAc唾液酸化修飾為特征;心/肝簇富含NeuGc唾液酸;腎簇高巖藻糖但低唾液酸。對應(yīng)地,糖蛋白表達(dá)譜聚類出五大組織特異性簇,其功能與器官生理完美契合:腦特異性糖蛋白主導(dǎo)神經(jīng)發(fā)育與突觸功能;肝、心、腎和肺的糖蛋白分別富集于代謝、機(jī)體穩(wěn)態(tài)、物質(zhì)運(yùn)輸和結(jié)構(gòu)發(fā)育過程。共調(diào)控網(wǎng)絡(luò)分析進(jìn)一步發(fā)現(xiàn),跨組織保守的糖蛋白顯著參與ECM-受體相互作用、鞘脂代謝等通路,并鑒定出β-己糖胺酶亞基α(Hexa)為核心樞紐分子。這些結(jié)果表明,糖基化修飾并非隨機(jī),而是精確調(diào)控并支撐著組織的特異性功能。
研究通過多維度生物信息學(xué)分析,將糖基化數(shù)據(jù)與生物學(xué)功能直接聯(lián)系起來。它系統(tǒng)地證明了N-糖基化修飾具有高度的組織特異性,這種特異性不僅體現(xiàn)在聚糖和糖蛋白的表達(dá)量上,更與其所在組織的核心生理功能完美契合(如神經(jīng)功能、代謝、運(yùn)輸?shù)龋M瑫r(shí),網(wǎng)絡(luò)分析揭示了跨組織保守的糖基化調(diào)控通路和核心分子(如Hexa),為理解糖基化在系統(tǒng)生物學(xué)中的調(diào)控作用提供了新視角。
圖4、小鼠跨組織的聚糖組成與糖蛋白的綜合分析結(jié)果
研究分析了小鼠大腦N-糖基化在衰老與神經(jīng)退行性疾病中的時(shí)空動(dòng)態(tài)變化。結(jié)果表明,年齡是驅(qū)動(dòng)糖基化變化的首要因素,其影響遠(yuǎn)超疾病狀態(tài),老年組(9個(gè)月)相比年輕組(3個(gè)月)多個(gè)腦區(qū)普遍出現(xiàn)糖基化水平下降。研究發(fā)現(xiàn)了顯著的腦區(qū)與疾病特異性:阿爾茨海默病(AD)、帕金森病(PD)和衰老過程在不同腦區(qū)(如海馬、紋狀體、黑質(zhì))均引發(fā)獨(dú)特的糖基化修飾改變。共表達(dá)網(wǎng)絡(luò)分析(WGCNA)進(jìn)一步識(shí)別出多個(gè)功能協(xié)同的糖基化模塊,例如:模塊M5(與軸突發(fā)生相關(guān))在PD中上調(diào);模塊M6(與神經(jīng)發(fā)育相關(guān))在AD和衰老中下調(diào);模塊M8(溶酶體功能)在AD中上調(diào)。聚糖模塊分析同樣發(fā)現(xiàn),高度唾液酸化的聚糖在AD和PD中均顯著減少。
圖5、不同疾病與衰老條件下腦區(qū)N-糖蛋白組的比較分析
研究不僅證實(shí)了腦部N-糖基化具有強(qiáng)烈的區(qū)域特異性,更重要的是揭示了年齡是驅(qū)動(dòng)其變化的最強(qiáng)因素,其影響甚至超過疾病本身。通過共表達(dá)網(wǎng)絡(luò)分析,研究發(fā)現(xiàn)了多個(gè)與特定腦區(qū)、衰老及神經(jīng)退行性疾病(AD, PD)密切相關(guān)的糖基化功能模塊,并將這些變化與諸如突觸功能、細(xì)胞粘附和溶酶體過程等關(guān)鍵生物學(xué)通路聯(lián)系起來。這為理解糖基化在腦老化及神經(jīng)退行性疾病中的分子機(jī)制提供了前所未有的時(shí)空動(dòng)態(tài)視角和大量潛在的調(diào)控靶點(diǎn)。
6、N-GlycoMiner數(shù)據(jù)庫的構(gòu)建和功能
研究構(gòu)建了綜合性N-糖蛋白組學(xué)資源平臺(tái) - N-GlycoMiner (www.NGlycoMiner.com)。平臺(tái)整合了本研究產(chǎn)生的大規(guī)模實(shí)驗(yàn)數(shù)據(jù)與近十年60篇文獻(xiàn)中的公共數(shù)據(jù),構(gòu)建了迄今最全面的物種特異性N-糖蛋白組數(shù)據(jù)庫。其核心內(nèi)容包含:小鼠數(shù)據(jù)(31萬種糖型、1.2萬種糖蛋白、3.8萬個(gè)糖基化位點(diǎn))和人類數(shù)據(jù)(10.7萬種糖型、8007種糖蛋白、1.7萬個(gè)位點(diǎn))。平臺(tái)提供四大功能:1)本研究數(shù)據(jù)查詢,可檢索組織特異性表達(dá)、鑒定可信度等詳細(xì)信息;2)文獻(xiàn)數(shù)據(jù)整合,涵蓋多種樣本類型與疾病模型;3)生物學(xué)見解,聚焦神經(jīng)疾病、癌癥等病理中失調(diào)的糖基化模式;4)理論預(yù)測功能,支持用戶上傳蛋白序列,自動(dòng)預(yù)測糖基化位點(diǎn)、生成模擬糖肽并分析其理化性質(zhì)。該平臺(tái)代表了當(dāng)前該領(lǐng)域最全面的數(shù)據(jù)資源,旨在成為糖生物學(xué)研究領(lǐng)域的核心工具,為揭示糖基化在生理和疾病中的功能提供不可或缺的數(shù)據(jù)基礎(chǔ)。
圖5、N-GlycoMiner (www.NGlycoMiner.com) 的核心架構(gòu)與功能展示
四、研究的意義
研究通過技術(shù)上的極致創(chuàng)新,產(chǎn)生了前所未有深度和高質(zhì)量的數(shù)據(jù),并以此為基礎(chǔ)構(gòu)建了支撐未來研究的平臺(tái)資源,最終揭示了糖基化在生理和病理狀態(tài)下前所未有的復(fù)雜性和功能性。這不僅極大地推動(dòng)了糖蛋白組學(xué)領(lǐng)域本身的發(fā)展,更為神經(jīng)科學(xué)、衰老研究和精準(zhǔn)醫(yī)學(xué)等多個(gè)相關(guān)領(lǐng)域提供了強(qiáng)大的新工具和深刻的新見解,具有里程碑意義。
參考文獻(xiàn):
Fang P, Yu X, Ding M, Qifei C, Jiang H, Shi Q, Zhao W, Zheng W, Li Y, Ling Z, Kong WJ, Yang P, Shen H. Ultradeep N-glycoproteome atlas of mouse reveals spatiotemporal signatures of brain aging and neurodegenerative diseases. Nat Commun. 2025 Jul 1;16(1):5568. doi: 10.1038/s41467-025-60437-6. PMID: 40593524; PMCID: PMC12215503.
郵箱:yilaibo@shyilaibo.com
地址:上海市寶山區(qū)長江南路180號(hào)長江軟件園B650