Artificial Neural Networks Trained to Detect Viral and Phage Structural Proteins
数据
来源:GenBank’s non-redun- dant database
原始数据:
正样本:6000+噬菌体结构蛋白序列
负样本:6000+噬菌体和原核基因组非结构蛋白序列
处理后的网络输入:氨基酸百分比组成(人工标记每个样本是/不是结构蛋白)
目的:有一段新的序列,计算氨基酸百分比组成,输入网络,预测是否为结构蛋白
网络
训练
目标:找最佳的网络结构&数据集划分
备选网络结构:
- 隐藏层1,1~100个神经元
- 隐藏层2,1~30个神经元
备选train/validation set划分:
- 50:50, 60:40, 70:30, 80:20, 95:5
验证方法:160-fold交叉验证(图3A画的是10-fold交叉验证的结果)
验证结果:
输入层(20个输入单元)+ 1个隐藏层(90个神经元)+ 输出层(1个输出单元)表现最好,准确率85.6%
train/validation set划分80:20表现最好,准确率86.2%
由于没有很大差别,最终选了160个网络,投票决定
更多工作
关注对结构蛋白亚类的分类结果,如:是否是衣壳结构蛋白
即输入数据的标记,原来标记是否为结构蛋白,现在标记是否为衣壳结构蛋白,重新训练网络,评估分类准确度
还做了针对古细菌和真核生物衣壳蛋白的
Isoelectric point?没看懂
工具
Neural Network Toolbox 7.0 in Matlab version 7.6.0.324
computations and data manipulations were done with Java, UNIX shell utilities, and Perl and Bash scripts
web interface
https://vdm.sdsu.edu/ivireons/
测试
随便上Genbank找了一个序列https://www.ncbi.nlm.nih.gov/protein/SYW18879.1
下载FASTA格式
sequence.fasta:
1 | >SYW18879.1 putative transcriptional regulator (Immunity repressor; phage) [Oenococcus oeni] |
提交测试
Structural, MCP, & Tail Protein Network Predictions
1 | Annotation Structural |
Percent Compositions and Isoelectric Point Estimates (last column)
1 | 0.0427 0.0000 0.0513 0.1197 0.0342 0.0085 0.0085 0.1026 0.1197 0.1453 0.0085 0.0855 0.0256 0.0256 0.0598 0.1026 0.0256 0.0256 0.0085 0.0000 9.07 |
根据interpret your results的提示…没看懂