gpt-凯发客户端登录

数字孪生

gpt-4震撼发布,图片/视频应用、游戏和虚拟人有望加速融合|天天最新

gpt-4在理解能力、图片和文本的综合理解、定制个性等方面具有显著提升。对于应用领域而言,我们已经可以看到多模态模型帮助应用同时实现增收、降本增效的可能性。我们此前将现在类比为移动互联网爆发前夕,预计gpt-4将加速这一进程。

来源:中信建投证券研究

gpt-4在理解能力、图片和文本的综合理解、定制个性等方面具有显著提升。对于应用领域而言,我们已经可以看到多模态模型帮助应用同时实现增收、降本增效的可能性。我们此前将现在类比为移动互联网爆发前夕,预计gpt-4将加速这一进程。

其中我们认为“多模态 图片/视频应用”是应用发展的基座,“ 游戏”将从改善需求看实现增收,同时为大型游戏减少研发费用,为中小型游戏减少营销费用,“ 虚拟人”将解决行业发展受限于套皮等“伪需求”问题。

(资料图片)

openai在3月15日正式发布gpt-4。据openai,gpt-4是多模态模型,可以理解文字和图片,并反馈文字,其理解能力较gpt-3和chatgpt更强。目前gpt-4的文字输入和反馈功能已经在chatgpt更新,并开放了api接口,而图片输入功能将会和be my eyes合作。据be my eyes凯发客户端登录官网,virtual volunteer功能将会结合gpt-4,ios和安卓应用已开放该功能的预约。

据openai凯发客户端登录官网,相较chatgpt和gpt-3,gpt-4主要在一下6个方面有较大改进:

1)gpt-4的理解能力有重大优化,我们预计将显著改善办公等生产力场景的用户体验。据openai凯发客户端登录官网,在模拟ap、sat、gre和美国法考等大部分考试中,带视觉能力的gpt-4可以获得更好的成绩。26门模拟考试中,gpt-4在17门获得了更好的成绩,特别是在微积分、化学和物理等理科领域有近40%,甚至更高的排名提升。据the verge报道,此前chatgpt在数学推算过程中时常会出现错误。而从此次openai展示的结果看,数学逻辑的推理能力已明显提升。此外排名提升最大的是美国司法考试,gpt-3.5排名仅列后10%,而gpt-4.0可以达到前10%的排名。

2)多模态模型可以综合理解文本和图片,从而优化反馈,我们预计更有助提升教育领域的用户体验。gpt-4的多模态模型可以提取图片和文字中的标签,以统一的数据进行处理,并给予文字反馈。因此在openai的测试中,gpt-4可以理解搞笑图片中iphone的数据线不合常理得大的梗。我们认为图片和文本的综合理解能力可以优化交互场景体验。比如在教育场景中,从此前单纯的文字/语言互动,发展成结合视觉和语言的理解,给予更好的反馈,预计丰富教育形式,从而提升教育质量。

3)gpt-4在非英语场景下表现得更好。openai使用azure translate将57门学科的14,000道选择题翻译成了26种语言,并给予gpt-4测试。结果显示,gpt-4在其中24种语言的正确率高于gpt-3.5、chinchilla、谷歌的palm等llm的英文测试表现,包括拉脱维亚语、威尔士语、斯瓦西里语等预料资源稀缺的小语种。从另一层面可见gpt-4对于语言的理解能力也要由于其他llm。

4)gpt-4的“可操纵性”(steerability)将赋予ai不同的个性,预计将进一步推动虚拟人成为“人”的可能。相比chatgpt固定的语言风格,gpt-4将允许接入api的用户定制ai的“性格”。我们预计将进一步优化虚拟人的反馈机制,类似于国内ai对话应用glow可以让用户与“钢铁侠”tony stark等不同背景、场景的虚拟人对话,将相关技术带入虚拟人场景中,是虚拟人成为真正的“人”。

因此,我们认为chatgpt使虚拟人摆脱动捕仅,获得ai反馈机制,成为“人”是第一步,而gpt-4解锁了虚拟人发展的第二部,使其成为个性迥异的“人”。这有助于解决虚拟人发展受限于套皮、性格等造成与虚拟人对话、互动是“伪需求”的问题。

5)在体验方面,gpt-4在安全、道德、法律等方面的防范意识更好。openai的研发人员基于在开放后,用户不断提出的有害信息、诱导性问题,对模型进行了优化,因此现在gpt-4在安全、道德、法律等方面的防范意识更强。

6)gpt-4允许用户输入更长的内容。相较gpt-3.5和chatgpt约4,096 tokens/约8,000单词的限制,gpt-4允许用户最多输入32,768 tokens/64,000单词,是过去的8倍。因此,gpt-4可以更持续性地与用户进行更多轮的对话,而不会很快“忘记”之前的对话内容。

以获得y combinator支持的生成式ai初创公司为例,多数应用主要是文本形式的输入和输出类应用,包括客服、办公辅助、科技金融等,其次为文本生成图片的变相应用,如生成不同艺术风格的短视频(无情节的艺术插画拼接)、游戏3d模型和素材生成等。

此次多模态的gpt-4发布,我们认为一方面,在生产力工具、教育和客服等交互应用,这类目前更容易落地的场景内,我们可以看到gpt-4的辅助能力进一步提升,优化了现有落地场景的用户体验;另一方面,我们也看到了多模态模型的可能性,此次升级在输入端,将文本理解,升级成文本和图片的综合理解,而未来我们也可以展望在输出端,也可以有文本结合图片、视频等形式的产出,从而推动图片/视频应用、游戏、虚拟人等应用场景有更丰富的功能落地。

我们认为“多模态 图片/视频应用”是应用领域的基座,提升生产效率、降低成本。目前已有的aigc技术融合应用的形式还较为单一,多数仍是文字生成图片的变相应用。而多模态模型使文本、图片、视频等多种内容形式的综合理解,以及多种内容的结合输出成为可能。最终不仅可以在c端的场景中,为日常生活提供娱乐和生产工具,同时也可以在游戏、虚拟人等内容的生产中提供辅助工具。因此我们认为,“多模态 图片/视频应用”是应用领域落地的基础。

“多模态 游戏”:1)提升行业需求:互动感倍增,解决行业需求放缓的痛点。自疫情初期经历短暂需求增长后,市场整体出现需求疲软的情况。据游戏产业报告,22年中国游戏市场实际销售收入2,658.8亿元,同比下降10.3%,减少306.3亿元。而多模态aigc模型的应用,预计可提升游戏的互动体验。如网易已在《逆水寒》中将aigc技术应用于npc,增加玩家互动体验。未来,我们预计aigc可以改变游戏固定的故事模式,提升游戏的内容量,增强游戏的互动体验,最终通过技术改善游戏需求增长放缓的问题。

2)降低成本:大型游戏降低研发成本,中小型游戏降低营销成本。除增收以外,多模态也可以通过更低的生产成本制作出内容量更大的游戏,类似于techcrunch报道的,哥本哈根大学的团队将aigc技术应用于《超级马里奥》游戏中,生成无限关卡的mariogpt,对于大型游戏而言可以降低研发成本。

中小型游戏的研发成本占比有限,而将本逻辑类似于广告营销公司。基于用户在微博、抖音等平台观看的内容,以及天气、地理位置等外部信息,生成“千人千面”的广告内容,最终提升广告的roi。因此,多模态模型可以降低广告素材生产成本,提升广告效果,从而为中小型游戏将本。

“多模态 虚拟人”:成为真正的“人”,解决行业发展痛点。由于目前虚拟人存在套皮,或是ai生成的虚拟人性格单一等问题,导致虚拟人存在是否为“伪需求”的质疑。而从此次gpt-4的发布中可以看到,ai已可以拥有个性,同时多模态可以结合文本/语言、图片/视觉的理解,更好得让虚拟人理解人类的真实感受,并给出反馈,提升互动的体验感,解决行业发展痛点。

我们认为多模态的gpt-4为图片/视频应用、游戏和虚拟人在发展中落地 aigc 技术,提供了更多可能性,有助同时实现增收、降本增效,最终改善行业和个股的估值弹性。

风险提示:

生成式ai技术发展不及预期、各领域技术融合进度不及预期的风险、算力支持程度不及预期、数据质量及数量支持程度不及预期、用户需求不及预期、技术垄断风险、原始训练数据存在偏见风险、算法偏见与歧视风险、算法透明度风险、增加监管难度风险、政策监管风险、商业化能力不及预期、相关法律法规完善不及预期、凯发客户端登录的版权归属风险、深度造假风险、人权道德风险、影响互联网内容生态健康安全风险、企业风险识别与治理能力不足风险、用户审美取向发生变化的风险。

关键词

24快报
ai能否救电视?
昨天 19:46
json抓取失败
网站地图