您的位置：他他商城 > 文体 > 当当网大模型算法：强化学习、微调与对齐详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏微调与对齐效果优化及其实践

当当网大模型算法：强化学习、微调与对齐详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏微调与对齐效果优化及其实践

当当网大模型算法：强化学习、微调与对齐详解强化学习 RLHF GRPO DPO SFT CoT DeepSeek蒸馏微调与对齐效果优化及其实践 - 当当网官方旗舰店

券后价￥65.4领优惠券¥10

原价：75.4元8.67折距离结束：

去天猫抢购>>收藏

对齐微调强化学习蒸馏

0人收藏举报当当网官方旗舰店

扫码有惊喜！

扫码进入手机查看

宝贝详情

HOT同类热卖

L

o

a

d

i

n

g

.

.

.

扫描二维码打开

关于我们: 关于我们; 联系我们; 新浪微博; QQ空间; 腾讯微博

商务合作: 卖家报名; 免责声明; 广告合作; APP客户端

用户帮助: 常见问题; 抢购小技巧; 消费者保障

会员中心: 我的收藏; 免费注册; 登录本站; 找回密码

他他商城粤ICP备18151084号-2　　Copyright © 2010 - 2019 https://07yhq.com/ All Rights Reserved