人工智能训练师三级实操环境配置指南
备战人工智能训练师三级认证考试,环境配置与函数速查表是两大得分关键点。优先搭建好Conda隔离环境,再把高频函数烂熟于心,实操题就能稳操胜券。以下梳理核心步骤与速查指南,方便集中突击。
环境配置核心流程
使用Anaconda管理Python依赖包,建议新建专用虚拟环境,避免与本地其他项目产生冲突。基础命令如下:
conda env list # 列出当前所有环境
conda create -n ai python=3.10 # 创建名为ai的虚拟环境,Python版本3.10
conda activate ai # 激活该环境
conda install pandas # 安装指定库
conda list # 显示已安装的所有库
conda update pandas # 更新指定库至最新版本
conda remove pandas # 卸载指定库
conda deactivate # 退出当前虚拟环境
针对考试场景,直接创建环境并安装考试所需的依赖包,接着进入素材目录启动Jupyter Notebook:
conda create -n ai_trainer python=3.10
conda activate ai_trainer
conda install pandas numpy matplotlib openpyxl jupyter scikit-learn -y
# Mac用户需安装指定版本的onnxruntime和protobuf
pip install onnxruntime==1.16.0 protobuf==3.20.3 -i https://pypi.tuna.tsinghua.edu.cn/simple
cd D:/AI/training/05-评价指导手册(上网)人工智能训练师_3级_sucai
jupyter notebook
函数速查表(高频考点)
加粗标记的为历年真题考点,建议优先背诵。
| 章节编号 | 功能描述 | 示例代码 |
|---|---|---|
| 1.1.1 | 使用read_csv()加载CSV文件 | data = pd.read_csv("patient_data.csv") |
| 1.1.1 | .head()预览数据前5行 | data.head() |
| 1.1.1‼️ | len()计算数据表行数,常用于比例分母 | len(data) |
| 1.1.1 | np.where()根据条件逻辑赋值 | data['RiskLevel'] = np.where(data['DaysInHospital'] > 7, '高风险患者', '低风险患者') |
| 1.1.1 | value_counts()按指定列统计分类频次,返回Series | data['RiskLevel'].value_counts() |
| 1.1.1 | pd.cut()分箱操作:传入索引列、划分节点、标签、端点开闭 | data['BMIRange'] = pd.cut(data['BMI'], bins=bmi_bins, labels=bmi_labels, right=False) |
| 1.1.1 | groupby()配合lambda:按BMIRange分组,对RiskLevel计算条件均值(高风险为1) | bmi_risk_rate = data.groupby('BMIRange')['RiskLevel'].apply(lambda x: (x == '高风险患者').mean()) |
| 1.1.2‼️ | agg()分组聚合,可传入列表同时计算count/mean等统计量(注意使用中括号) | sensor_stats = data.groupby('SensorType')['Value'].agg(['count', 'mean']) |
| 1.1.2‼️ | 筛选SensorType满足isin条件的数据,unstack()将多级索引最后一个层级转为列 | location_stats = data[data['SensorType'].isin(['Humidity','Temperature'])].groupby(['Location','SensorType'])['Value'].mean().unstack() |
| 1.1.2‼️ | np.where()筛选温度探测器异常值(注意双条件与两个等号) | np.where(((data['SensorType']=='Temperature') & (data['Value'] > 50))... |
| 1.1.2‼️ | sum()统计is_abnormal为True的数量(布尔值自动转为0/1求和) | data['is_abnormal'].sum() |
| 1.1.2 | .fillna()填充NULL值,method='ffill'用前值填充,'bfill'用后值填充 | data['Value'].fillna(method='ffill', inplace=True) |
| 1.1.2 | drop()删除指定列 | data.drop(columns=['is_abnormal']) |
| 1.1.2 | to_csv()保存为CSV文件,index=False取消自动生成的索引列 | cleaned_data.to_csv('cleaned_sensor_data.csv', index=False) |
