企业网站宣传视频外链wordpress文章网格-兰州市网站建设公司-Seo优化

企业网站宣传视频外链,wordpress文章网格,微网站自助建站后台,wordpress导航栏的文件在哪里文章目录一、数据准备与标准化1. 下采样技术2. SMOTE过采样技术3. 模型训练与评估超参数调优混淆矩阵可视化函数最终模型训练与评估二、技术对比与选择建议一、数据准备与标准化首先#xff0c;我们需要加载并预处理数据。以下是完整的数据准备代码#xff1a; import num…文章目录一、数据准备与标准化1. 下采样技术2. SMOTE过采样技术3. 模型训练与评估超参数调优混淆矩阵可视化函数最终模型训练与评估二、技术对比与选择建议一、数据准备与标准化首先我们需要加载并预处理数据。以下是完整的数据准备代码importnumpyasnpfromnumpy.maimportnegativefromsklearn.model_selectionimporttrain_test_split,cross_val_scorefromsklearn.preprocessingimportStandardScalerimportpandasaspdimportmatplotlib.pyplotaspltfrompylabimportmplfromsklearn.linear_modelimportLogisticRegressionfromsklearnimportmetricsfromimblearn.over_samplingimportSMOTEimporttime# 读取数据并标准化datapd.read_csv(rcreditcard.csv)scalerStandardScaler()data[Amount]scaler.fit_transform(data[[Amount]])datadata.drop([Time],axis1)# 设置中文字体mpl.rcParams[font.sans-serif][Microsoft YaHei]mpl.rcParams[axes.unicode_minus]False# 可视化正负样本分布labels_countpd.value_counts(data[Class])print(labels_count)plt.title(正负例样本数)plt.xlabel(类别)plt.ylabel(频数)labels_count.plot(kindbar)plt.show()这段代码首先加载信用卡交易数据对交易金额进行标准化处理并移除时间列。通过可视化我们可以清楚地看到正负样本正常交易与欺诈交易的情况。1. 下采样技术下采样是通过减少多数类样本来平衡数据集的方法。在信用卡欺诈检测中正常交易样本多数类远多于欺诈交易样本少数类。下采样随机选择与少数类数量相同的多数类样本从而创建平衡的训练集。# 创建训练数据副本data_traindata.copy()# 分离正负样本positive_egdata_train[data_train[Class]0]negative_egdata_train[data_train[Class]1]# 下采样从多数类中随机抽取与少数类相同数量的样本positive_egpositive_eg.sample(len(negative_eg))# 合并平衡后的数据集data_cpd.concat([positive_eg,negative_eg])# 准备特征和标签column_names[V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount]x_wholedata_c[column_names]y_wholedata_c[[Class]]# 划分训练集和测试集x_train_w,x_test_w,y_train_w,y_test_wtrain_test_split(x_whole,y_whole,train_size0.3,random_state1000)# 使用逻辑回归模型lrLogisticRegression(C0.01)lr.fit(x_train_w,y_train_w)# 预测和评估test_predictedlr.predict(x_test_w)resultlr.score(x_test_w,y_test_w)print(metrics.classification_report(y_test_w,test_predicted))下采样的优点是简单易实现计算效率高但缺点是会丢失大量多数类样本的信息可能降低模型性能。2. SMOTE过采样技术SMOTESynthetic Minority Over-sampling Technique是一种更先进的过采样技术它通过生成合成样本来增加少数类样本数量而不是简单复制现有样本。# 使用完整不平衡数据集x_wholedata[column_names]y_wholedata[[Class]]# 划分训练集和测试集x_train,x_test,y_train,y_testtrain_test_split(x_whole,y_whole,train_size0.2,random_state1000)# 应用SMOTE过采样oversamplerSMOTE(random_state0)os_x_train,os_y_trainoversampler.fit_resample(x_train,y_train)SMOTE的工作原理是在少数类样本之间进行插值生成新的合成样本。具体来说对于每个少数类样本SMOTE会找到该样本的k个最近邻少数类样本随机选择其中一个邻居在原始样本和邻居之间的连线上随机选择一个点作为新样本3. 模型训练与评估超参数调优使用交叉验证来寻找最优的正则化参数Cscores[]c_param_range[0.01,0.1,1,10,100]z1foriinc_param_range:start_timetime.time()lrLogisticRegression(Ci,penaltyl2,solverlbfgs,max_iter1000)scorecross_val_score(lr,os_x_train,os_y_train,cv8,scoringrecall)score_meansum(score)/len(score)scores.append(score_mean)end_timetime.time()print(第{}次....format(z))print(time spend:{:.2f}.format(end_time-start_time))print(recall:{}.format(score_mean))z1best_cc_param_range[np.argmax(scores)]print(f........最优惩罚因子为:{best_c}........)混淆矩阵可视化函数defcm_plot(y,yp):fromsklearn.metricsimportconfusion_matriximportmatplotlib.pyplotasplt cmconfusion_matrix(y,yp)plt.matshow(cm,cmapplt.cm.Blues)plt.colorbar()forxinrange(len(cm)):foryinrange(len(cm)):plt.annotate(cm[x,y],xy(y,x),horizontalalignmentcenter,verticalalignmentcenter)plt.ylabel(True label)plt.xlabel(Predicted label)returnplt最终模型训练与评估# 使用最优参数训练模型lrLogisticRegression(Cbest_c,penaltyl2,max_iter1000)lr.fit(os_x_train,os_y_train)# 训练集预测和评估train_predictedlr.predict(os_x_train)print(metrics.classification_report(os_y_train,train_predicted,digits6))cm_plot(os_y_train,train_predicted).show()# 测试集预测和评估test_predictedlr.predict(x_test)print(metrics.classification_report(y_test,test_predicted,digits6))cm_plot(y_test,test_predicted).show()二、技术对比与选择建议下采样优点计算效率高适用于大规模数据集缺点丢失大量多数类信息可能降低模型泛化能力适用场景计算资源有限多数类样本冗余度高SMOTE过采样优点保留所有样本信息生成多样化的合成样本缺点可能生成不现实的样本计算成本较高适用场景少数类样本非常稀少需要保留所有原始信息在实际应用中建议根据具体问题和数据特性选择合适的采样技术。同时通过合理的数据预处理和采样技术我们可以显著提高模型在不平衡数据集上的性能特别是在召回率这一关键指标上。

企业网站宣传视频外链wordpress文章网格

做网站时连服务器上的数据库网站做视频在线观看网址

集约化网站建设北京网站备案拍照的地点

望京做网站的公司哪家好html5模板之家

建一个商城网站需要多久建设网站都需要什么

网站建设经验总结聊城有制作网站的吗

哈尔滨公司做网站网站设计毕业设计论文