摘要
事件:当地时间5月5日,openai发布开源的“文本生成3d”模型shap-e,公布了该模型的权重、推理代码和样本。
自我更新,shap-e同时支持纹理网格和nerf两种类型3d表示,效果力压openai另一开源3d模型。该模型的论文提出:1、与最近产生单一输出表示的 3d 生成模型不同,shap-e 直接生成隐式函数的参数,这些参数可以呈现为纹理网格和神经辐射场(nerf)。2、shap-e的训练分成两个步骤:1)训练一个编码器,该编码器确定性地将 3d 资产映射到隐式函数的参数;2)在编码器的输出上训练条件扩散模型。3、当在包含成对的 3d 和文本数据的大型数据集上训练时,该模型能在几秒钟内生成复杂多样的 3d 资产。与openai此前开源的点云上的显式生成模型 point-e 相比,shap-e 收敛速度更快,并且尽管对更高维的、多表示的输出空间建模,仍可达到相当或更好的样本质量。
大语言模型开源社区一日千里,shap-e引领3d生成“圣杯”进入“stable diffusion时刻”。aigc产业存在着“ai民主化”“ai平权”浪潮和浓厚的开源氛围。在aigc的文字生成领域,自2023年2月24日meta开源大语言模型(llm)llama以来,llm的“linux时刻”到来,alpaca、gpt4all、vicuna、koala、openassistant和hugging chat等多个基于llama的llm诞生,chatglm、dolly2、redpajama、stablelm和moss等llm也陆续出现,开源llm渐呈燎原之势。而在文生图领域,stable diffusion率先开源,与闭源的midjourney难分伯仲。尽管openai此次发布的shap-e存在“对单个物体的理解能力较强,对物体的组合的理解能力较弱”“略显粗糙,细节缺失(如仙人掌的纹路)”,我们认为,shap-e将吸引开发者不断提升aigc的3d内容生产模型的速度和质量。
openai、谷歌、英伟达引领aigc 3d生成浪潮,营销、游戏、建筑、工业数字孪生等多场景受益,凯发客户端登录加速到来。当前在“文本生成3d”赛道,shap-e的主要竞争者包括谷歌dreamfusion和英伟达magic3d。3月,英伟达宣布与设计工具shutterstock合作训练“文本生成3d”模型,计划随后发布。shutterstock 首席执行官 paul hennessy 表示这一合作将大大缩短从创建到发布具有精美纹理、结构化的 3d 模型的周期。显然,3d比2d更生动形象,接近物理世界,是更好的元宇宙形象载体。我们认为,aigc作为生产力工具对3d生成内容的降本增效,将深刻推动产业变革,给用户更真切的视觉体验,促成元宇宙的加速到来。
投资建议:1、算力:算力是aigc蓬勃发展的基石,我们看好光通信及边缘算力,建议关注新易盛、中际旭创、天孚通信、太辰光、德科立、锐捷网络、寒武纪、美格智能、紫光股份、中兴通讯等;2、模型层:建议关注国内外大模型的边际变化,包括昆仑万维、三六零、科大讯飞等;3、应用层:我们看好游戏的迭代创新,包括恺英网络、神州泰岳、盛天网络、游族网络等;4、数据层:监管将是贯穿aigc发展的挑战,看好中国移动、中国电信、中国联通、浩瀚深度、新华网、人民网等。
风险提示:伦理风险:人工智能与人交互过程中,可能出现伦理风险。市场竞争风险:开源大模型的发展一日千里,对商业公司而言,是机遇也是挑战。政策法律监管风险:随着相关法律的逐步完善,或出现法律监管的问题,例如在个人数据保护和知识产权保护方面出现大量纠纷。
本文节选自国盛证券研究所已于2023年5月7日发布的报告《openai再开源3d模型,元宇宙加速到来》,具体内容请详见相关报告。