[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(一)

文章目录

  • 摘要
  • 一、背景
  • 二、数据收集和预处理
  • 三、Deepphos框架和模型训练

摘要

这项研究中,文章提出了一种新颖的多层CNN架构DeepPhos以准确预测具有蛋白质序列信息的磷酸化位点。与之前深度学习方法不同,DeepPhos由密集连接的CNN(DC-CNN)块组成,其中卷积层通过块内串联层(Intra-BCL)同时相互连接,有效地增强了磷酸化信息的流动。同时,采用具有不同窗口和过滤器尺寸的多个DC-CNN块自动捕获蛋白质磷酸化位点的重要序列表示,并通过块间串联层(Inter-BCL)进一步集成以进行最终预测。为了评估DeepPhos的性能,本文从几个数据库中收集了大量经过验证的磷酸化示例,这些示例用于训练和评估模型。评估结果表明,DeepPhos在一般磷酸化预测方面优于现有方法。此外,该架构可以成功地应用于一系列激酶特异性磷酸化位点预测任务,从激酶基团水平到单个激酶水平,从基础一般DeepPhos模型逐层转移。进一步的评估还表明,DeepPhos在激酶特异性磷酸化位点预测方面具有更好的性能。

密集连接(dense connections)可以促进了训练过程中的梯度流和隐式的深度监督。特别是DenseNet,每一层都和其余各层连接起来取得了很好的效果。

DC-CNN:( Dilated Casual-Convolution Neural Network)扩大的因果卷积神经网络,一般地,卷积神经网络(Convolution Neural Network,CNN)的每个神经元由负责提取上一神经元局部特征的特征提取层和在该神经元计算过程中所需的多个特征映射平面共同组成的特征映射层构成,因果卷积(Casual Convolution)多用于具有一定排列顺序的数据,处理较长的序列化数据时有着良好的建模效果。因果卷积的序列化特点使其十分适合处理语音这种时序性极强的数据信息。但如果仅使用因果卷积,则需要极深的神经网络或极大的卷积核才能获得较好的训练结果。而过深的神经网络与过大的卷积核不仅会大大降低运算效率,而且容易造成模型训练难以收敛或者退化的现象。为了弥补这一缺陷,在模型的卷积神经网络中引入了扩大卷积。扩大卷积是一种稀疏化的卷积核,它通过忽略部分输人数据来增加感受野的范围,即按照一定规则在原始的卷积核中增加零来生成“扩张”卷积核。如图1所示,阴影部分表示在这一扩展系数下的感受野,圆点表示实际的卷积核。
[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(一)_第1张图片

块内串联层(Intra-BCL):为了增强DeepPhos的DC-CNN块中的磷酸化信息流,引入了intra-bcl块,它将所有之前的卷积层与随后的卷积层连接起来,将不同层次的前一层的抽象转移到当前层,增加网络的深度。

蛋白质磷酸化:指由蛋白质激酶催化的把ATP的磷酸基转移到底物蛋白质氨基酸残基(丝氨酸、苏氨酸、酪氨酸)上的过程,或者在信号作用下结合GTP,是生物体内一种普通的调节方式,在细胞信号转导的过程中起重要作用。蛋白质磷酸化是调节和控制蛋白质活力和功能的最基本、最普遍,也是最重要的机制。

一、背景

蛋白质翻译后修饰(PTM)是通过共价和通常酶促修饰调节细胞功能的关键机制,其在调节各种生物过程中起着至关重要的作用。作为研究最充分的方法之一,蛋白质磷酸化通常在丝氨酸(S)、苏氨酸(T)和酪氨酸(Y)残基上磷酸化,它是调节细胞过程的基础,如DNA修复、生长、运动、代谢和细胞周期控制。有证据表明,超过30%的真核蛋白可以被磷酸化,其中一半与不同类型的疾病密切相关,特别是癌症。磷酸化是研究最多的翻译后修饰,它对多种生物过程至关重要。近年来,人们开始努力开发磷酸化位点预测的计算预测工具,但大多数都是基于特征选择和鉴别分类。因此,开发一种新的、高度准确的预测器是有用的,可以揭示复杂的蛋白质磷酸化位点。

二、数据收集和预处理

为了确保高质量的数据,本文从多个数据库中收集了经过实验验证的人类蛋白质磷酸化位点。一般的位点预测:从不同的数据库中删除了所有重复系列,然后使用相似性阈值为40%的CD-HIT工具,以减少磷酸化蛋白的序列冗余并避免模型过度拟合。最后,保留了12810个蛋白质序列,提取了所有实验验证的S / T位点和Y位点的磷酸化位点作为正样本,S / T位点和Y位点的数量分别为140 120和27 691。负样本为随机选择的其他S / T和Y位点的子集,与正样本数量相同。
对于激酶特异性预测:使用类似的预处理程序,然后本文将所有具有激酶注释的8130个磷酸化位点聚类为组,家族,亚科和单个激酶水平。本研究采用了深度学习方法中常用的性能评估策略进行序列分析,将数据集随机分为严格不重叠的训练,验证和独立测试集。

cd-hit: 是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类以去除冗余的序列,一般用于构建非冗余的数据集用于后续的实验分析。(下载网址:https://github.com/weizhongli/cdhit/releases)

三、Deepphos框架和模型训练

DeepPhos是一种新的CNN结构,它可以通过一系列非线性变换将局部蛋白序列映射到高维连续表示,最终生成磷酸化位点的分类结果。DeepPhos不是直接使用普通的多层CNN,而是利用不同的DC-CCNN块(图2),有效地确保磷酸化预测的关键蛋白序列信息。
[论文阅读]使用深度学习方法预测蛋白质磷酸化位点DeepPhos: prediction of protein phosphorylation sites with deep learning(一)_第2张图片
对于一个局部蛋白质序列x,完全为K个DC-CNN块的DeepPhos的输入是一组序列特征Ek∈RLk*I,I和Lk分别为氨基酸符号字典的大小和相应的磷酸化位点的局部窗口大小。在本研究中,通过one-hot编码方案对蛋白质序列进行编码,因此I被设置为21。本文仔细探索了各种配置的DC-CNN块与不同的窗口大小在磷酸化网站预测的任务,最后开发一个高效的网络架构,K = 3 ,窗口大小为15,33和51。

one-hot编码:独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。

每个DC-CNN块中的卷积层沿着蛋白质序列长度进行连续卷积操作,生成相应的值,然后应用于激活函数ak(本文使用ReLU),以激活神经元,实现非线性变换。对于DC-CNN块k,由第一个卷积层生成的特征图定义为:
在这里插入图片描述
其中wk表示大小为的权重矩阵,bk1表示偏置项。为了减少训练中过拟合的风险,每个卷积层都采用dropout,在卷积层后随机丢弃部分神经元。
为了增强DeepPhos的DC-CNN块中的磷酸化信息流,引入了intra-bcl块,它将所有之前的卷积层与随后的卷积层连接起来,将不同层次的前一层的抽象转移到当前层,增加网络的深度(假设原本为5层,引入intra-bcl块之后,相当于是1+2+3+4+5层)。因此,将DC-CNN块k中第i个卷积层的输出特征图沿特征维数连接,计算方法如下:
在这里插入图片描述
其中在这里插入图片描述是指在i-1个卷积层中生成的特征图,在这里插入图片描述中的D’是卷积层1到i的滤波器总数,C是每个DC-CNN块中的卷积层数,在本研究中设置为5。在使用不同的DC-CNN块生成蛋白质磷酸化位点的序列表示后,它们通过DeepPhos中的Inter-BCL进一步整合,沿着第一个维度执行连接如下
在这里插入图片描述

你可能感兴趣的