① MachineLearning 24. 机器学习之似然增强Cox 比例风险模型筛选变量及预后估计 (CoxBoost)
简 介
CoxBoost是一种机器学习方法,用于拟合Cox比例风险模型,特别适用于特征数量庞大的模型。它通过基于组件似然的增强策略,允许在无惩罚参数估计的前提下保留特定的协变量。相比于基于损失函数梯度的梯度增强方法,CoxBoost采用Tutz和Binder(2007)提出的基于偏移量的增强方法,使每个增强步骤中获得单个参数更新,实现类似lasso的稀疏拟合。
在CoxBoost中,提升步骤数(stepno)和惩罚参数(penalty)是主要的复杂性参数,通过交叉验证等方法进行选择。这种方法的灵活性体现在允许无惩罚的强制协变量,以获得快速系数积累,并对其他协变量施加惩罚。在微阵列分析中,微阵列特征作为可选协变量,而临床特征作为强制协变量,通过设置unpen.index实现。
软件安装与数据读取
数据使用TCGA-LUSC的表达和临床数据,进行预处理后使用。数据分割遵循标准流程,构建模型时使用CoxBoost函数,并设定关键参数,如stepno和penalty。通过交叉验证优化参数,使用optimCoxBoostPenalty筛选最优penalty,构建最终模型。在模型构建后,使用验证集验证模型性能,计算预后风险,进行一致性分析、生存分析和准确性分析,最终通过ROC曲线评估模型。
基于机器学习构建临床预测模型
机器学习技术在癌症诊断和分子分型中发挥重要作用,包括主成分分析、因子分析、聚类分析、K-邻近算法、支持向量机、分类树、回归树、随机森林、梯度提升算法、神经网络、随机森林生存分析等。这些方法通过不同方式提取特征,优化分类和预测性能,为临床决策提供支持。
桓峰基因单细胞生信分析免费培训课程即将开始,欢迎报名。课程内容涵盖单细胞系列生信分析教程,持续推出,敬请关注桓峰基因公众号。官网正式上线,提供更多学习资源和咨询服务。桓峰基因与投必得合作,提供文章润色服务,使用专属优惠券码KYOHOGENE,享受85折优惠。
② vllm代码走读(六)--后处理
在vllm的推理流程中,核心步骤包括调度、模型执行以及采样。这些阶段为高效推理提供了基础。在采样完成之后,后处理阶段成为至关重要的环节,负责处理、分析并最终生成可读结果。后处理主要包括以下关键步骤:
1. **模型输出处理**:这一步涉及解码相关输出,根据模型的`sampling parameters`(如是否使用逐词搜索)更新调度序列组,并释放已完成的序列组。最后,它会创建并返回新生成的结果。
2. **序列数据处理**:对调度处理的序列组进行遍历,更新序列计算的token数量,以及计算prompt的log概率。这一步是确保结果与原始数据一致的关键。
3. **prompt数据更新**:处理prompt_logprobs数据结构,确保prompt短句和部分token的更新不影响原始数据与生成结果的对比。通过`detokenize_incrementally`函数实现逐词解码。
4. **输出整理**:将序列数据按照`parent_seq_id`进行分类,释放空闲资源。生成新的序列,对于每个输出,添加额外的序列,直到达到所需的数量。同时,实现逐词解码逻辑,确保序列的连续性和一致性。
5. **序列终止判断**:检查生成的序列是否达到终止条件或长度限制,设置相应的状态,如完成或长度受限。
6. **资源管理**:对未使用逐词搜索的序列,进行资源释放;而使用逐词搜索时,根据`length_penalty`参数选择或淘汰序列,确保资源的有效利用。
最后,后处理阶段还包括生成请求输出,以及更新序列组级调度,释放已完成的序列组,为下一次调度做准备。
通过以上步骤,后处理确保了结果的准确性和效率,最终生成符合预期的输出,为用户提供有价值的信息。整个流程设计合理,旨在优化推理过程中的性能和输出质量。