发现津津乐道播客编码人声：在 GPT-4o 释放完整能力前，听听实时多模态 AI 创业者的一手经

编码人声：在 GPT-4o 释放完整能力前，听听实时多模态 AI 创业者的一手经

2024-05-28 54'41''

1183 17

分享到:

介绍:

5 月中旬 GPT-4o 的发布，让人与 AI 的交互，从对话框的文本交流加速推进到了音视频多模态的实时互动。本期节目，我们邀请到实时互动 AI 创业者史业民。他结合了自己的一手研发经验，深度分析了 GPT-4o 在多模态、实时交互、情感语音的新能力和能力边界，分享了 GPT-4o 正在催生的潜在场景和新机会。史业民还从开发者视角，提出了面向开发者的 GPT-4o 和面向用户的 ChatGPT 能力可能存在区别的提醒，以及在开发多模态 AI 产品时需要注意到的技术细节。从对话框到音视频，多模态的实时互动 AI 已成趋势。希望本期节目能对你有所启发。

上一期：吃东西为什么还要讲道理，食物自己会说话 feat.刘仪伟
下一期：老高被起诉专利侵权？听听专利律师怎么说

大家还在听

关注我们

工信部APP备案号:粤ICP备12026999号-31A
粤网文[2022]1888-146号粤ICP备12026999号
增值电信业务经营许可证粤B2-20120522
穗公网安备44010650010105号
网信算备440106359615002220011号网信算备440106359615004220013号
互联网宗教信息服务许可证粤(2023）0000133
荔枝微信客服：关注公众号“荔枝APP服务”直接输入您的问题（工作时间：10:00~12:00、14:00~20:00）
荔枝全国公开举报电话：020—38057619 扰乱网络传播秩序及违法违规信息举报邮箱： jubao@lizhi.fm
荔枝未成年人权益受理邮箱：advise@lizhi.fm
广州荔支网络技术有限公司 2010-至今© All Rights Reserved. 本平台为信息网络存储空间网络服务平台

自审制度精选专题关于我们加入我们联系我们荔枝服务协议隐私政策版权投诉指引