企业网站宣传视频外链wordpress文章网格

张小明 2026/1/11 9:32:04
企业网站宣传视频外链,wordpress文章网格,微网站自助建站后台,wordpress导航栏的文件在哪里文章目录一、数据准备与标准化1. 下采样技术2. SMOTE过采样技术3. 模型训练与评估超参数调优混淆矩阵可视化函数最终模型训练与评估二、技术对比与选择建议一、数据准备与标准化 首先#xff0c;我们需要加载并预处理数据。以下是完整的数据准备代码#xff1a; import num…文章目录一、数据准备与标准化1. 下采样技术2. SMOTE过采样技术3. 模型训练与评估超参数调优混淆矩阵可视化函数最终模型训练与评估二、技术对比与选择建议一、数据准备与标准化首先我们需要加载并预处理数据。以下是完整的数据准备代码importnumpyasnpfromnumpy.maimportnegativefromsklearn.model_selectionimporttrain_test_split,cross_val_scorefromsklearn.preprocessingimportStandardScalerimportpandasaspdimportmatplotlib.pyplotaspltfrompylabimportmplfromsklearn.linear_modelimportLogisticRegressionfromsklearnimportmetricsfromimblearn.over_samplingimportSMOTEimporttime# 读取数据并标准化datapd.read_csv(rcreditcard.csv)scalerStandardScaler()data[Amount]scaler.fit_transform(data[[Amount]])datadata.drop([Time],axis1)# 设置中文字体mpl.rcParams[font.sans-serif][Microsoft YaHei]mpl.rcParams[axes.unicode_minus]False# 可视化正负样本分布labels_countpd.value_counts(data[Class])print(labels_count)plt.title(正负例样本数)plt.xlabel(类别)plt.ylabel(频数)labels_count.plot(kindbar)plt.show()这段代码首先加载信用卡交易数据对交易金额进行标准化处理并移除时间列。通过可视化我们可以清楚地看到正负样本正常交易与欺诈交易的情况。1. 下采样技术下采样是通过减少多数类样本来平衡数据集的方法。在信用卡欺诈检测中正常交易样本多数类远多于欺诈交易样本少数类。下采样随机选择与少数类数量相同的多数类样本从而创建平衡的训练集。# 创建训练数据副本data_traindata.copy()# 分离正负样本positive_egdata_train[data_train[Class]0]negative_egdata_train[data_train[Class]1]# 下采样从多数类中随机抽取与少数类相同数量的样本positive_egpositive_eg.sample(len(negative_eg))# 合并平衡后的数据集data_cpd.concat([positive_eg,negative_eg])# 准备特征和标签column_names[V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount]x_wholedata_c[column_names]y_wholedata_c[[Class]]# 划分训练集和测试集x_train_w,x_test_w,y_train_w,y_test_wtrain_test_split(x_whole,y_whole,train_size0.3,random_state1000)# 使用逻辑回归模型lrLogisticRegression(C0.01)lr.fit(x_train_w,y_train_w)# 预测和评估test_predictedlr.predict(x_test_w)resultlr.score(x_test_w,y_test_w)print(metrics.classification_report(y_test_w,test_predicted))下采样的优点是简单易实现计算效率高但缺点是会丢失大量多数类样本的信息可能降低模型性能。2. SMOTE过采样技术SMOTESynthetic Minority Over-sampling Technique是一种更先进的过采样技术它通过生成合成样本来增加少数类样本数量而不是简单复制现有样本。# 使用完整不平衡数据集x_wholedata[column_names]y_wholedata[[Class]]# 划分训练集和测试集x_train,x_test,y_train,y_testtrain_test_split(x_whole,y_whole,train_size0.2,random_state1000)# 应用SMOTE过采样oversamplerSMOTE(random_state0)os_x_train,os_y_trainoversampler.fit_resample(x_train,y_train)SMOTE的工作原理是在少数类样本之间进行插值生成新的合成样本。具体来说对于每个少数类样本SMOTE会找到该样本的k个最近邻少数类样本随机选择其中一个邻居在原始样本和邻居之间的连线上随机选择一个点作为新样本3. 模型训练与评估超参数调优使用交叉验证来寻找最优的正则化参数Cscores[]c_param_range[0.01,0.1,1,10,100]z1foriinc_param_range:start_timetime.time()lrLogisticRegression(Ci,penaltyl2,solverlbfgs,max_iter1000)scorecross_val_score(lr,os_x_train,os_y_train,cv8,scoringrecall)score_meansum(score)/len(score)scores.append(score_mean)end_timetime.time()print(第{}次....format(z))print(time spend:{:.2f}.format(end_time-start_time))print(recall:{}.format(score_mean))z1best_cc_param_range[np.argmax(scores)]print(f........最优惩罚因子为:{best_c}........)混淆矩阵可视化函数defcm_plot(y,yp):fromsklearn.metricsimportconfusion_matriximportmatplotlib.pyplotasplt cmconfusion_matrix(y,yp)plt.matshow(cm,cmapplt.cm.Blues)plt.colorbar()forxinrange(len(cm)):foryinrange(len(cm)):plt.annotate(cm[x,y],xy(y,x),horizontalalignmentcenter,verticalalignmentcenter)plt.ylabel(True label)plt.xlabel(Predicted label)returnplt最终模型训练与评估# 使用最优参数训练模型lrLogisticRegression(Cbest_c,penaltyl2,max_iter1000)lr.fit(os_x_train,os_y_train)# 训练集预测和评估train_predictedlr.predict(os_x_train)print(metrics.classification_report(os_y_train,train_predicted,digits6))cm_plot(os_y_train,train_predicted).show()# 测试集预测和评估test_predictedlr.predict(x_test)print(metrics.classification_report(y_test,test_predicted,digits6))cm_plot(y_test,test_predicted).show()二、技术对比与选择建议下采样优点计算效率高适用于大规模数据集缺点丢失大量多数类信息可能降低模型泛化能力适用场景计算资源有限多数类样本冗余度高SMOTE过采样优点保留所有样本信息生成多样化的合成样本缺点可能生成不现实的样本计算成本较高适用场景少数类样本非常稀少需要保留所有原始信息在实际应用中建议根据具体问题和数据特性选择合适的采样技术。同时通过合理的数据预处理和采样技术我们可以显著提高模型在不平衡数据集上的性能特别是在召回率这一关键指标上。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

做网站时连服务器上的数据库网站做视频在线观看网址

芝麻粒-TK:开启智能环保生活的新篇章 【免费下载链接】Sesame-TK 芝麻粒-TK 项目地址: https://gitcode.com/gh_mirrors/ses/Sesame-TK 清晨的阳光透过窗帘,手机屏幕上闪烁着温暖的光点。在这个快节奏的时代,有这样一款智能助手&#…

张小明 2026/1/10 11:21:35 网站建设

集约化网站建设北京网站备案拍照的地点

AI推理芯片对比:为何TensorRT仅限NVIDIA GPU? 在当今AI模型加速部署的浪潮中,推理性能已成为决定系统能否落地的关键瓶颈。从智能摄像头到大语言模型服务,用户对低延迟、高吞吐的需求日益严苛。面对这一挑战,NVIDIA推出…

张小明 2026/1/10 13:09:40 网站建设

望京做网站的公司哪家好html5模板之家

毕业照人脸与姓名匹配:学校档案数字化利器 引言:从纸质档案到智能识别的跨越 在传统教育管理中,毕业照归档是一项繁琐且易出错的工作。每张合影背后是数十甚至上百名学生的姓名信息,人工标注不仅耗时耗力,还容易出现张…

张小明 2026/1/10 11:17:58 网站建设

建一个商城网站需要多久建设网站都需要什么

大模型推理成本居高不下?你需要这颗GPU加速利器 在今天的AI应用战场上,一个看似简单的用户提问——“明天天气怎么样?”背后可能调用的是千亿参数的大语言模型。而企业为此付出的代价,不仅是每秒数千次的GPU显存读写,更…

张小明 2026/1/10 9:40:41 网站建设

网站建设经验总结聊城有制作网站的吗

嵌入式系统现场更新的方法与实践 1. 现场更新的必要条件 在进行嵌入式系统的现场更新时,有几个关键要素是必不可少的: - MTD 工具 :开发板上的闪存设备在写入之前必须先执行擦除操作。对于配备 NAND 内存的开发板,由于标准的 /dev/mtdblockX 设备驱动无法妥善处理坏…

张小明 2026/1/7 14:30:55 网站建设

哈尔滨公司做网站网站设计毕业设计论文

UltraISO启动模式为何更适配IndexTTS2类AI系统的本地部署? 在边缘计算与本地大模型部署日益普及的今天,一个常被忽视却至关重要的环节浮出水面:如何让复杂的AI系统在陌生硬件上“一插就跑”? 设想这样一个场景:你带着预…

张小明 2026/1/10 12:55:27 网站建设