2021华为杯研赛选题建议与思路

给大家的选题建议:

A题 相关矩阵组的低复杂度计算和存储建模

这道题目需要充分挖掘矩阵间关联性,以实现低复杂度的计算和存储,需要有相当的数学功底,存在最优解,推荐数学等相关专业,或者对其有强烈兴趣的同学选择。

B题 空气质量预报二次建模

这道题目相对而言难度适中,典型的数据挖掘类题目,建议计算机等相关专业同学选择,其中可以用一些机器学习、深度学习算法进行建模。要注意可视化很重要。

C题 帕金森病的脑深部电刺激治疗建模研究

此题尤其建议计算机专业研究脑认知方向的同学选择,其他方向和专业不推荐此题,可能需要补的知识很多。

D题 抗乳腺癌候选药物的优化建模(推荐)

这道题是数据挖掘、数据分析类题目,可以利用xgboost、adaboost等集成算法,也可以利用改进的协同过滤、神经网络、svm等算法进行建模与求解。在选择变量时,可以采用PCA等方法进行选择。

E题 信号干扰下的超宽带(UWB)精确定位问题

这道题需要比较强的知识储备,信号处理、数据挖掘、3D建模等均有所涉猎,既有预测、又有分类,这些任务都可以利用一些机器学习、深度学习算法进行建模与求解。

F题 航空公司机组优化排班问题

好像之前也有过类似题目,关于航班的。这类题没有专业限制,大家只要有思路都可以选择。

B题思路 空气质量预报二次建模

大气污染系指由于人类活动或自然过程引起某些物质进入大气中,呈现足够的浓度,达到了足够的时间,并因此危害了人体的舒适、健康和福利或危害了生态环境。污染防治实践表明,建立空气质量预报模型,提前获知可能发生的大气污染过程并采取相应控制措施,是减少大气污染对人体健康和环境等造成的危害,提高环境空气质量的有效方法之一。

请你们团队根据问题要求,基于一次预报数据及实测数据(见附件)进行空气质量预报二次数学建模,完成以下四个问题。请注意,实际工作中会遇到数据为空值或异常值的情况(见附录),故要求建立的模型具有一定的鲁棒性。

问题1:使用附件1中的数据,按照附录中的方法计算监测点A从2020年8月25日到8月28日每天实测的AQI和首要污染物,将结果按照附录“AQI计算结果表”的格式放在正文中。

针对问题1: 并没有什么难度,根据给出的方法,采用合理的方式进行相应的计算即可,需要注意的是,缺失值的填充方式,可能会影响最终的计算结果。而缺失值的填充方式有很多种。但是针对这种具有时序型的监测数据,缺失值受到前面时刻和后面时刻的影响较大,缺失值可使用前后时刻的均值、前面时刻的值、前后几个时刻的均值等方式。(针对提示的数据异常情形,除了缺失值之外,还应注意偶然因素的影响)建议使用时序折线图等可视化方式,对数据进行全局和局部的观察。

缺失值填充方法:利用前面的填充、利用前面和后面的均值填充、利用均值(中位数)填充、考虑多个变量影响关系的填充方式,如KNN等。

数据可视化方法:折线图、箱线图等

问题2:在污染物排放情况不变的条件下,某一地区的气象条件有利于污染物扩散或沉降时,该地区的AQI会下降,反之会上升。使用附件1中的数据,根据对污染物浓度的影响程度,对气象条件进行合理分类,并阐述各类气象条件的特征。

针对问题2 合理分类:由于这并没有固定的说有几类,所以应该根据数据的分布情况进行分析,直观的方式就是聚类分析(可使用的聚类算法有很多种),根据数据的聚集情况进行分类,然后阐述每类数据的气象条件特征(这个特征的最简单表示可以使用簇的中心),以及这些气象特征对污染物扩散或者沉降的影响,进而对AQI的影响。

聚类方法:K均值聚类、K中值聚类、密度聚类、系统聚类等。聚类结果可视化可借助TSNE等方式进行降维可视化、轮廓系数图等。

问题3:使用附件1、2中的数据,建立一个同时适用于A、B、C三个监测点(监测点两两间直线距离>100km,忽略相互影响)的二次预报数学模型,用来预测未来三天6种常规污染物单日浓度值,要求二次预报模型预测结果中AQI预报值的最大相对误差应尽量小,且首要污染物预测准确度尽量高。并使用该模型预测监测点A、B、C在2021年7月13日至7月15日6种常规污染物的单日浓度值,计算相应的AQI和首要污染物,将结果依照附录“污染物浓度及AQI预测结果表”的格式放在论文中。

针对问题3:使用3个地点的数据集,建立二次预报数学模型,该模型具体使用什么方法,可以有很多种。如何评价预测效果的好坏,通过AQI的相对误差和首要污染物预测准确度(这两个指标都可以使用给定的数据计算出来,所以可以认为模型的监测目标有两个,而且这两个又有一定的关系。)针对AQI的取值可以看着是一个回归类型的模型,针对首要污染物预测准确度可以看作是一个分类问题,而且两种损失函数也可以融合为一个。鉴于该数据又有一定的时序性,所以建模时也不能忽略时序的印象,例如:可以使用多个、多种模型融合的组合式建模方法,与时序LSTM等相关的深度学习算法。

机器学习算法:支持向量机、神经网路、随机森林、多元线性回归、Ridge回归、ARIMA、ARIMAX、Prophet、LSTM、RNN等。

问题4:相邻区域的污染物浓度往往具有一定的相关性,区域协同预报可能会提升空气质量预报的准确度。如图 4,监测点A的临近区域内存在监测点A1、A2、A3,使用附件1、3中的数据,建立包含A、A1、A2、A3四个监测点的协同预报模型,要求二次模型预测结果中AQI预报值的最大相对误差应尽量小,且首要污染物预测准确度尽量高。使用该模型预测监测点A、A1、A2、A3在2021年7月13日至7月15日6种常规污染物的单日浓度值,计算相应的AQI和首要污染物,将结果依照附录“污染物浓度及AQI预测结果表”的格式放在论文中。并讨论:与问题3的模型相比,协同预报模型能否提升针对监测点A的污染物浓度预报准确度?说明原因。

针对问题4:相对于问题3,该问题需要更近一步的考虑方位和距离对空气质量的影响。评价的指标和问题3相同,因此可以在问题3的建模结果的基础上进行相应的考虑,例如:添加新的特征。或者根据风向等气象指标考虑污染物的流动等因素。

D抗乳腺癌候选药物的优化建模

这道题是一道分类问题,解决的方法基本都是机器学习(含深度学习、强化学习)的方法,(对于编程能力较弱的小白不太友好)

第一问:ERα_activity中一般采用pIC50来表示生物活性值,看这一列就好,Molecular_Descriptor有729个指标,给出关联程度前Top20,数据都是实验数据,数据要不要标准化处理,如果要处理那么后文都得用这个标准化处理后的数据,要么就不处理,标准化处理后会改变算法的结果,算各指标的关联性直接加个循环依次求每个指标与pIC50的相关性即可,SMILES都是单独的一个实验,就认为数据是真实检测的,不需要进行异常样本剔除,第一问求相关性看着简单,真正的挑战还在后面,第一问的结果设计到后文的机器学习算法,算法对数据集的质量要求挺高的,因此你们在做第一问的时候可以拟几种算法结果,具体写什么看后文算法的效果,想关性算法有:灰色关联、皮尔逊、秩相关、肯德尔、余弦、典型相关分析、Elasticsearch相关性…(第一问相关性方法很多,每种选出来的都不一样,但是后面问很和第一问结果有关)

第二问:采用第一问中的Top20的指标构建pIC50的关系模型(第一问题目说了取top20,后面问没说你们就可以取top10),不用想肯定是非线性,预测模型可以是神经网络、决策树系列拿不到关系式的算法模型,也可以是回归系列能求出关系式的模型,第一种做法不用多说,算法内置函数本身就是非线性,最后绘制一些误差、性能检验图即可,第二种回归的非线性做法简单讲下,虽然我们看回归算法都是线性拟合的,但是可以添加非线性变量,例如x=[X(:,1:15),X(:,1:15).2,X(:,1:15).3,X(:,1:15).4,X(:,1:15).5,exp(X(:,1:15))];构建一个非线性自变量集,然后直接带入算法求参数,说到拟合还不得不提及1stopt神器,但仅支持最多二元拟合,可以分别找出20个指标和pIC50最合适的经验公式,然后合成一个大的关系式,对其中参数进行拟合,使用机器学习算法一步到位,这确实很方便,给你们多几种参考,自行选择,算法训练或得出关系式后,带入Molecular_Descriptor中test数据集求出IC50_nM列及对应的pIC50列,题目也说了IC50_nM和pIC50是可以换算的,本文只针对其中一个用于算法模型即可,之后再用1stopt或者拟合算法确定IC50_nM和pIC50的换算公式就行第三问,记住是五个分类预测模型,不是说ADMET中的Caco-2、CYP3A4、hERG、HOB、MN作为一个训练输出,而是分开来做,Caco-2、CYP3A4、hERG、HOB、MN只有0,1两个值,那就是二分类问题,同样的最好先进行指标的选取,并且这类数据离散度很强,(会有小伙伴说,二分类问题用随机森林、svm、prnn神经网络等算法直接搞,算法是没问题额,但任何一种机器学习算法的实现效果很依赖数据集)

第三问:不得不先对数据集进行处理,记住第三问是分别对Caco-2、CYP3A4、hERG、HOB、MN进行研究,不是说数据处理了一次就好了,每种输出它的相关指标不一样,五种输出选区的指标应当是不相同的,其实这个问很好办,各位可以参考下协同过滤推荐的方式,根据近邻用户的数据去计算,那么这个问,test中有50个实验,对应的是Molecular_Descriptor中的test,那么就先找一下test50个实验与training中前k个近邻实验,从而构建出训练集,这样构建出的训练集,交叉数据肯定会少很多,然后再同第一问方式取前m个指标,接下来就是带算法进去训练然后预测,除了本段已说到的方法,可以考虑一些前沿的算法去做,例如Xgboost、受限玻尔兹曼机(RBM)(DBN神经网络中的核心)、多层感知MLP、自组织映射SOM、生成式对抗网络GAN、循环神经网络RNN、GRNN、PRNN等,最后结果记得填入ADMET.xlsx中的test。

第四问:先找出ADMET中有三个1的实验,然后就第一问选出的指标,通过第二问方式重新求得一个关系模型,其实从这里来看,第二问用可以得出关系是的算法模型,就能和本问紧密联系起来了,得到新的关系模型后,接下来就是套用优化算法寻优了,以pIC50值为目标函数,最大化寻优,或者对IC50最小化寻优。

你可能感兴趣的