导 读本文尝试挖掘AI播客的智能化生成逻辑,展示其强大的声音生产力,通过对比传统播客生产范式,提示其不可忽视的实践困囿。一、引言被视为人类“新普罗米修斯时刻”的生成式人工智能时代已经来临。2024年9月11日,谷歌NotebookLM推出的音频概览应用(Audio Overview)在智能音频领域具有里程碑意义。这款智能应用可以将用户上传的文档、文本、网页以及YouTube视频生成音频对谈。9月19日,沃顿商学院的人工智能教授伊桑·莫利克(Ethan Mollick)在其社交媒体上将这类由AI生成的音频对谈纳入“播客”的范畴,掀起了人们对人工智能生成播客的广泛讨论。人工智能生成播客(AI-Generated Podcast,以下简称“AI播客”)是一种基于人工智能技术生成的播客。依托自然语言生成(NLG)和语音合成(TTS)等智能技术,AI播客可以实现脚本自动生成、AI主播塑造和智能语音合成。与以往文本转语音节目不同,AI播客以内容流畅、音质逼真著称,一时间成为欧美最出圈的大模型应用之一。作为生成式人工智能在音频领域的应用创新,AI播客能将文字、图片和视频等多模态资料自动转化为音频内容,这意味着大型语言模型引领的技术整合迈向新阶段,音频生产范式正在重构。本文尝试挖掘AI播客的智能化生成逻辑,展示其强大的声音生产力,通过对比传统播客生产范式,提示其不可忽视的实践困囿。正在逐步弱化的“播客共同体”警醒着各方生产者,与传统播客协同发展、找准适配场景并深耕有限性才是AI播客的发展方向。二、模拟人类对话:AI播客的生成逻辑对话是生成式人工智能自我学习和内容输出的经典范式。播客天然即对话,AI播客生成的底层逻辑是以模拟人类对话为基础的对谈型播客合成。在技术层面,AI播客标志着音频领域的生成式人工智能正在向真人迈进,自动化播客脚本生成呈现出结构化的高效态势,匹配主播身份的智能语音则赋予播客以类人化想象,极大地提升了AI播客的人性化。(一)结构化:自动化脚本生成与延展想象AI播客擅长整合和学习数量庞大的多模态资料,自动化生成逻辑清晰、引人入胜的对话文本,即播客的元脚本。围绕对话文本的创建,AI播客脚本在文本结构化和语境可延展两个方面彰显了深度思考和智能高效的技术底色。依托以自然语言处理为代表的人工智能技术,AI播客对多模态资料进行分析、清洗和整合,完成脚本自动化创建,作为构建脚本的输入资料承担着数据源和生成指令的双重任务。相较于由即时对话构建的传统播客脚本,自动化创建的AI播客脚本具备结构化意涵。作为AI播客的核心部分,结构化脚本规定了播客的主题、叙事范畴和节目时长,具有模块化、可组合性和时序性等特征。AI播客脚本大体分为“引言—主体—结论”三部分,每部分又细分为多个模块,如“背景介绍—核心观点—案例分析”等。通过对多模态资料的处理,AI播客展现了生成式人工智能的技术优势,结构化的脚本有利于数据处理和内容的自动化组合,可以在数分钟内随AI播客同步输出。例如,根据用户提供的文本或关键词,NotebookLM音频概览即可生成约数千字符的对话型脚本。除常规的网址、文件和文字等生成指令外,国产生成器Podcast Generator还可以接受图片形态的内容“投喂”(见表1)。表1 AI播客生成器文本接受形态与产品亮点AI播客在形成对话脚本的背景资料方面显示出了强大的想象力和延展性。相较于其他音频产品,播客能为用户提供口语化的实践经验和行业观点,使之成为泛知识领域的重要声音来源。正如NotebookLM团队负责人雷扎·马丁(Raiza Martin)所言,NotebookLM音频概览的神奇之处在于,人们可以听到一些他们通常无法在YouTube或现有播客上找到的内容。[1]在“元数据”提供的范畴边界基础上,AI播客还吸纳、整合了互联网中的各类实践案例,并联系互联网中的背景材料做出延展性分析,包括展示出事件发生的原因、参与故事的人物的心理活动。这些背景资料最终形成播客脚本的生成语境,并进一步影响播客节目的主播风格和声音表现。(二)身份化:对谈式播客与主播身份塑造相较于传统文本转语音(TTS)技术生成的单一音频叙事节目,AI播客在内容形态、智能技术和用户体验上所具有的独特价值在脚本自动化生成之初便可以窥探一二,特别是基于自然语言处理和情感计算等智能技术生成的对谈式脚本。作为一种全新的音频表达形式,以主播对谈为代表的AI播客实现了音频智能化领域的里程碑式跨越。主播/嘉宾身份影响内容专业度、听众黏性和节目讨论深度,是高质量播客对谈的重要元素。在播客节目中,具备IP价值的主播能在有声对谈中建构一个信息传递、情感触发和行为影响的声音场景。“身份化”是AI主播对谈的基础和前提,拥有不同身份的AI主播在观点立场、口语表达、内容阐释等方面呈现不同的话语样态。作为一个跨学科的概念,身份化涉及社会学、心理学和技术哲学等多个领域。在技术语境下,身份化通常是指通过技术手段赋予个体或虚拟实体某种身份标识或身份表达。AI通过生成身份标识实现身份化,源于脚本自动化生成过程中的深度学习和指令分析。借助大语言模型,AI播客可以精准预测生成指令中的用户需求,并塑造AI主播的个性化身份。由此,AI主播获得了与用户甚至外部世界对话的角色身份,也促进了具有IP价值的身份标识的生成。例如,Jellypod生成器可以为用户提供主播身份简介,包括性格、职业、学历和声音特质。围绕人工智能相关话题,国产AI播客生成器PodLM生成的AI播客会自动匹配科技探索(节目)主持人和科技爱好者的身份。该款生成器设置的身份超越了话题本身的概念范畴,使得作为提问方的科技爱好者与作为解答方的主持人能在较为广阔的对话场域中展开讨论。由此,对谈不仅能讨论人工智能本身,而且还能上升至科技与人的关系层面,强化了播客内容的实用性和说服力。同时,身份化意味着身份与行为具有一致性,即AI主播将呈现贴合身份的声音形式、话语表述以及互动活动,包括主播嘉宾对谈以及主播与听者之间的问答。根据对话模式的不同,AI播客可以分为主播主导的访谈型播客和主播、嘉宾多人互动的讨论型播客(见表2)。例如,Podcast Generator生成器通过深度分析图片后设定了两个AI主播的身份,一个号称“咆哮女王”,一个则是涉猎量子物理学等多学科的专家。[2]作为AI主播的身份表达,这场趣味性的对谈在两位主播极具标识性的声音互动中被推向高潮。表2 AI播客主播的身份来源与播客形态(三)类人化:智能化语音合成与声音克隆承接结构化脚本和身份化AI主播的构想,智能语音合成是AI播客生成的最终环节。沿智能语音的技术线索梳理AI播客的发展历程发现,作为语音智能化的重要表征,类人化语音要求AI语音在音调、音色、节奏和情感等风格韵律方面极大靠近真人声音,使之成为AI播客主播的重要身份展示。AIGC模式下的新闻播客可以被认为是早期的AI播客产品,正是由于语音转译技术限制,其难以达到类人化语音标准。近年来,随着神经网络模型逐步替代传统的部分统计学习模型,深度学习方案进一步促进语音合成技术迭代升级,AI播客在语音表现方面展示出类人化特质。社会学家加布里埃尔·塔尔德(Gabriel Tarde)认为,模仿不仅是社会现象的基础,也是社会变革的动力。作为深度学习算法的音频处理技术,声音克隆可以通过分析和模仿特定个体的语音特征生成与原始声音高度相似的语音。声音克隆的原理在于抓住基音和泛音的声音特征,结合声音的频率分析,从而实现声音克隆。[3]用户只需录制数十个句子的语音样本,AI播客生成器会对这些样本进行分析,学习人类的语调、口音和发音细节,从而创建出高度还原的数字语音副本。声音克隆实现了类人化语音合成的第一步,这类似创建了一个“语音皮肤”(Voice Skin),克隆后的声音可以应用于多个播客节目中。随着AI播客向多人对谈模式发展,单一的声音源难以覆盖多样化的观点表达。AI播客从语言、音色和其他声音元素等方面探索声音效果(见表3),以提高播客节目的争辩性。例如,国内首款播客生成器声智App可以为播客提供包括国风少年音、日系甜美音、专业主播音、优雅知性音在内的12种音色;作为NotebookLM的替代工具,PodLM则支持方言对话。在去人性化的智能应用场景下,AI播客倾向于为AI主播增添一些真人声音元素。例如,AI播客生成器GenFM在生成播客时,用户可以添加一些停顿和插入一些填充词的提示,借助“嗯”和“啊”等类人化语气词使对谈更加流畅。表3 AI播客对声音效果的探索三、技术的有限性:AI播客的实践困囿贝尔纳·斯蒂格勒(Bernard Stiegler)认为,技术既是解药,也是毒药,它可以增强人类的能力,但也可能导致异化。[4]在生成式人工智能的技术逻辑下,AI播客在文本内容、声音样态和互动范式等方面呈现出与传统播客完全不同的媒介特性。在追求生成效率的同时,AI播客也出现了如生成式文本下的“三重隐忧”、声音身份空心化和人机互动下的情感断裂等问题。(一)生成式文本:真实性、时间性与经验性隐忧基于主播真实的实践经历和情感体悟,播客成为折射现实生活的立体镜像,真实性、长时间性和主体实践性始终是其价值旨归。与传统播客大相径庭的是,自动化生成的AI播客脚本强调高效的结构化表达,追求检索效率和生成效率的底层逻辑与作为慢媒介的播客价值相悖,造成了真实性、时间性与经验性隐忧。首先,从AI播客的真实性隐忧来看。作为一种内容创作活动,播客脚本根据提示词分析并推测事件发展趋势。为补全逻辑链条,运算程序会不可避免地吸纳相关性材料作为运算辅助和推测处理,导致真实性偏差。例如,NotebookLM音频概览在分析《扫雷》(Minesweeper)一书时,生成的AI播客做出了超越原文本的虚构性假设。[5]可见,“技术求真”与“现实真实”的错位将动摇播客作为“现实镜像”的价值根基。其次,作为生成式文本的重要特征,短叙事与“薄文本”为AI播客带来了时间性隐忧。音频媒体的核心优势在于借助长故事叙事维持听众注意力,但生成式文本与之存在根本冲突。围绕关键词等生成指令,AI播客生成器通常仅生成7-10分钟的短播客(约数千字符)。相较于长播客的叙事能力,其故事编排能力和声音丰富性显著降低。更重要的是,作为次生口语媒介,播客的文本厚度和实践深度源于可感知的生活经验。结构化脚本的文本容量随叙事时间缩短而锐减,AI播客存在“去情景化”的经验缺失问题。在预训练之初,个体经验遭到算法排斥,导致结构化的AI播客脚本倾向于信息整合和概念解读,仅保留了较少的个体体验和生活实践痕迹,难以给予听众鲜活的经验参考。由于数据多样性不足和实践案例稀缺,AI播客训练文本吸纳的实践经验不够,自动化的播客脚本呈现“去情景化”特征。(二)机械的声音:“去人性化”与声音身份空心化作为维系地方感和提升亲密度的重要媒介,混合了原生口语和次生口语的播客极具亲切感。AI播客在吸纳了智能基因的基础上获得了高效生成的技术优势,但也面临“去人性化”的困境。首先,AI播客的口语化程度不够,亲近感较差。亲切感源于附近、日常和一切熟悉的事物。在过去,受众往往需要借助电视、广播等传统媒体接收以新闻口播为代表的官方语言,遥远的观看或收听距离产生了疏远的心理距离,难以形成亲近感。追求吐字清晰、发音标准的AI播客更接近新闻口播,弱化口语的声音表现或将引起听众的心理疏离感。其次,AI播客声音元素较少、临场感不强。声音具有破坏性和入侵性,丰富的声音元素能排除其他干扰使人沉浸其中。随着听众对声音期待的提高,播客叙事已脱离仅靠主播独白,进入依托同期声、背景音乐、口述等声音元素营造声音场景提升在场感和氛围感的阶段。[6]目前,借助语音合成技术,AI播客能完成画外音的创建,但还无法一键融合多重音效。作为重要的声音形式,语气能展现思想情感的贴切性、丰富性和深刻性。从口语传播视角来看,AI播客的音色和节奏虽已接近真人表达,但其难以展现出语气的曲折性和变化性,导致AI播客情感表达不足。此外,AI播客整体语速较为平稳,难以体现情绪的起伏变化。如国内AI播客生成器声智App生成的AI播客还无法控制语速,且男主播声音略显僵硬,缺少丰富的语气表露。作为声音的媒介,AI播客若无法展示情绪的起伏变化,它将失去人性化色彩。声音克隆也催生了一些伦理问题。由声音克隆展现的AI播客音色可精准复现原音,听众易将其当做真人声音。在“声音身份”与“生物身份”分离的情况下,可能催生“身份空心化”——用户难以辨别信息源的真实性,削弱社会信任基础,导致声音身份信任危机。依托声音克隆模拟已故脱口秀主持人迈克尔·帕金森(Michael Parkinson)的声音,一档名为“Virtually Parkinson”的AI播客节目获得大量关注,这档AI播客节目在录制前也需获得其家人的许可[7],这在一定程度上避免了一些不必要的纠纷。(三)共同体弱化:人机互动的弱连接与情感断裂在传统播客形塑的情感共同体中,主播被视为维系播客互动和情感联结的关键。主播互动贯穿播客节目制作、收听和分发始终。随着全新的技术范式嵌入播客生产,声音克隆的AI主播代替了真人主播,主播与听友间的情感关系由“人人互动”的强连接转向“人机互动”的弱连接,以主播为纽带的情感共同体趋于弱化。在收听过程中,听众对AI主播的身份感知较弱,不利于听众建立具象化的主播身份认知,从而弱化了双方的情感联结。从作为客体的听众层面上看,情感联结往往建立在听觉想象基础上,即听者通过声音想象主播的样貌、着装与仪态,依据想象的信息理解主播讲述的故事,进而与之交往互动。[10]然而,AI主播的身份具有流动性,当用户切换生成指令时,AI主播的身份可能随之发生变化。在AI主播的年龄、职业、喜好等身份标签无从查找的情况下,听众难以进入听觉想象。在分发环节,AI播客的互动链条断裂导致情感联结无法闭环,是双方情感断裂的重要表现。作为传统的播客分发模式,简易信息聚合(Really Simple Syndication,以下简称“RSS”)分发建立在用户对内容的满意基础上,信息生产者与用户间传播链条的建立周期相对较长[11],有利于播客与听众形成稳固的情感联结。主播下场与粉丝互动是增强节目吸附力的重要方式。例如,在人文类播客节目中,主播和听友能在知识探讨的氛围中相互学习,相互启发,唤起更多人对“真问题”的讨论与思考。[12]然而,“一键转发”的播客智能分发打破了主播与听众的联结基础,也减少了播客与听众互动的必要。四、深耕有限性:AI播客的适配场景随着声音的触角深入信息传播、知识生产和社会生活的方方面面,音频播客衍生出多元业态。作为全新的播客垂类,AI播客在脚本制作、声音表现和分发方式上正在革新传统播客生成范式,但这并不意味着AI播客正在挤占传统播客的生存空间。相反地,当前的AI播客在真实性、实践性等方面与传统播客观念相距甚远,挖掘适配场景、深耕有限性,或是AI播客的未来发展径路。(一)资讯场景:私人订制的AI新闻播客生成式文本的高效生产与作为慢媒介的播客价值相悖,AI播客需根据自身优势找到适配场景,实现差别化发展。此前,报业媒体曾以音频为锚点向数字化媒介转型,通过推出短资讯新闻播客适应了移动传播场景。[13]随着生成式人工智能在新闻生产领域持续发力,音频新闻或可成为AI播客在资讯领域的深耕场景。依托事实核查,AI新闻播客能有效化解由事实性偏差带来的真实性危机。时间性隐忧也在短音频场景中转化为叙事优势,深度对接了用户的碎片化收听需求。同时,以新闻事件为生成数据源,AI新闻播客更能满足听众对实践经验的诉求。相较于传统新闻播客,AI新闻播客更加注重个性化体验。一项关于AI播客的调查显示,82%的听众表示更喜欢包含个性化内容选择和建议的音频体验,这些内容和建议是根据他们的偏好定制的。[14]当下,AI新闻播客正在尝试为用户量身定制一套“个性化新闻”以满足不同用户的新闻需求。归功于与算法的天然适配性,AI播客能在高效检索用户信息偏好基础上继续“深加工”,根据用户喜欢的内容自动生成AI播客。例如,谷歌2025年1月推出的新闻播客“每日收听”(Daily Listen)可以根据用户发现(推荐)页面上的信息内容生成AI播客。从本质上看,每日收听的内容生成范式是一种全新的“个性化推荐”方式,根据用户偏好生成的内容是真正意义上的“私人订制”。此外,搭载智能化语音的AI新闻播客较好地弥合了文本转音频技术带来的机械感,极大地强化了新闻内容的可听性。可定制的语音皮肤则为用户提供更强的控制感,在双人对谈的声音场景下,用户可以享受到“声”临其境的收听体验。作为媒体系统性变革的关键一环,全媒体产品发展需更加注重智能化、垂直化和场景化。[15]私人订制的AI新闻播客不仅提升了用户阅读新闻和获取信息的效率,更能强化播客与用户之间的联系,或可成为媒体智能化发展的未来方向,为主流媒体实践全媒体产品变革提供形态参考。(二)知识场景:具身问答的AI学术播客理性的学术话语排斥感性的生活经验表达,为AI播客融入学术场域设置了适配的声音入口。自2020年播客元年以来,文化知识领域逐渐成为播客深耕主阵地。有调查显示,具有专业性和深度性的知识类节目广受年轻高知群体欢迎的背后可能是听众有着强烈的现代性知识焦虑。[16]相较于传统学术播客,基于对统计、叙述、理论和实践等知识的结构化口语讲述,AI主播与用户的具身问答范式正在革新传统对话式学习范式,AI学术播客或将成为知识传播和学术服务的重要媒介。知识青年与学术播客的“耦合”在一定程度上反映了加速社会下的知识流动结构,提高知识利用率是学术播客的进取方向之一。知识利用率有赖于知识的获得率,基于对话的学术场景能较好地促进知识获得。作为播客主要的学术对话场域,基于线上社群和节目评论区的互动反映了传统学术播客在知识扩散方面的有限性。无论是对话访谈、单人讲述还是现场转录的学术播客,听众与主播均难以形成在场问答,“离身”听觉状态则不利于对学术知识的深度理解。正如现场转录的学术播客可能出现现场收音较差的技术问题,难以为听众带来良好的收听体验。[17]灌输式的知识传播往往难以留存用户,交互式学习能较大程度上强化用户注意力、启发他们的思路。作为对话式人工智能在音频领域的实践巧思,AI播客正在重塑全新的对话式学习范式。相较于传统学术播客中主持人与听众间的“离身”阅听状态,AI学术播客注重用户的在场对话、即时体验和同频互动的具身学习。面对用户的实时提问,搭载大语言模型和自然语言处理的AI学术播客可以精准捕捉用户需求,并提供个性化反馈和生成易于理解的解答。2024年12月13日,谷歌公司上线了一项AI播客的交互式新功能。依托Gemini 2.0大语言模型,AI播客允许用户与AI主持人对话。用户只需点击新的交互模式(BETA)按钮,便可以向AI主播提问,AI主播将根据用户的问题生成个性化的解答。声音作为一种学习资源被应用到建构具身问答学习场景中,用户可以根据自己的喜好定制这位导师的音质。此时,AI主播将化身“私人导师”为用户提供深入的概念解析,从而帮助用户在掌握新知基础上提升其学习的参与感和获得感。(三)生活场景:AI自播客与地方共同体作为全新的内容生产力,生成式人工智能推动播客生产模式从传统的专业生产内容向人工智能生产内容升维。所谓自播客,是指由个人或小团队独立制作、发布内容的播客,即个人播客。相较于传统的个人播客,AI自播客具有更强的个人化、独立性和自由度。与短视频兴起后短视频博主大量涌现类似,AI播客将赋能表达欲和分享欲较强的音频用户释放声音生产力,使之成为播客内容的有力生产者。音频用户角色的转变昭示着AI自播客时代来临。作为后现象学的奠基者,唐·伊德(Don Ihde)关注技术与人类经验的关系。他强调,技术不是中立的工具,而是通过人造物,即“技术中介”改变了周围世界。[18] AI自播客属于典型的技术中介,它在赋能音频业态多样化发展的同时,实现了处于地方的播客主与广泛遍在的听众间的重新连接,并形塑全新的听觉关系。地方性(Placeology)是一种通过话语定位自我和他人的方法,强调个人身份与位置的关系。地方性根植于播客的私密性基因,私密性源于播客的生活化叙事。AI自播客重建地方性的强大优势在于,不同的地方文化、生活方式和实践经验借助强大的声音生产力被凝集和扩大。随着不同垂类的自播客遍地开花,以地方性为纽带的播客共同体得以重塑。首先,声音倾向于建构地方感。早在20世纪的声音文化研究中人们便发现,以广播为代表的大众传媒是地方建构的重要力量。[19]作为地域性的语言符号,方言承载着独特的地方文化和地方特色,AI播客生成器PodLM支持方言对谈,AI自播客能借助方言叙事融合更多地方元素和个性化体验,从而使个体自主建构地方感知。其次,AI自播客能进一步通过生活化叙事展示地方文化的独特魅力,推动散落于各地的音频用户重新连接。个人归属于地方,播客主的创造灵感来源于所在地的生活实践,极具地方性色彩的日常生活成为他们构建播客脚本的“元指令”。播客主将极具地方特色的文化、习俗和生活方式以智能化手段高效地转化为播客形态并分发至各大平台,推动散落各地的个体叙事重新聚合。AI自播客中蕴含的地方性标识将成为主播与听众互动和建构身份认同的基础。更重要的是,地方感带来的附近感能为播客内容提供源源不断的亲切感,由此塑造的播客形象能较大程度上调动听众的情感共鸣。这好像在听一个老朋友讲故事一样,播客的情感魅力就在于像朋友间对话一般的轻松。[20]听众在此时将具有同样经历的播主视为亲切的朋友,由地方性实践带来的情感共同体得以重塑。五、结语作为生成式人工智能在音频领域的重要延展,AI播客正在以亲近的姿态重新整合我们周边的文本、故事和资源,塑造新的信息触达模式——听觉范式。大模型语言为智能语音技术注入新的活力,使之能以类人化的面貌重新回归大众视野,就是听觉范式在技术层面的例证。随着这种范式深入我们生活的方方面面,声音将在平衡我们日常生活的视听体验的基础上赋予听觉以较强的个体性色彩,使之成为信息获取的特有方式、学术探索的开发工具和对话生活的具身性陪伴。可以预见的是,协同传统播客是当下AI播客发展的必由之路,正如一些资深播客主说的那样,播客的价值在于提供个体的实践经验和生活方式。当下,AI播客能以朋友的口吻告诉我们通向目的地的正确道路,但它始终无法标注出沿途的独特风景。鉴于此,在未来的很长一段时间里,AI播客都需要在有限的场景中深耕垂类生态。一方面,持续发挥AI播客作为智能音频的强大生产力,赋能并释放传统播客在资讯、知识等信息生产方面的时效性和阐释力。另一方面,以地方性、经验性资料积累为锚点丰富大模型语料库,焕发作为声音媒介的AI播客的独特意义,应为AI播客走向独立发展的可能径路。参考文献▼[1] AI in podcasting:is it the future?[EB/OL].(2024-10-15)[2025-02-20].https://thefix.media/2024/10/15/ai-in-podcasting-is-it-the-future.[3]张英贤.AI时代,警惕声音被克隆[J].新农村,2024(10):39.[4] 武先云.技术、知识与人的解放——斯蒂格勒技术思想解读[J].云南社会科学,2022(02):41-49.[6]杨晓娟,张晋,李星儒.播客的情感叙事与记忆空间建构[J].出版广角,2024(12):76-80.[7] AI podcast revives Sir Michael Parkinson[EB/OL].(2024-10-30)[2025-03-12].https://dig.watch/updates/ai-podcast-revives-sir-michael-parkinson.[8][20]许苗苗.播客:声音里的情感共同体[J].首都师范大学学报(社会科学版),2021(03):144-152.[10]许加彪,梁少怡.播客复兴:听觉媒介社交化发展的价值优势与理性反思[J].当代传播,2023(03):103-105+112.[11]张亚堃,张伟超.播客的媒介属性、意义空间与伦理价值研究[J].传媒,2023(09):54-56.[12]冯菊香,耿叔豪.人文类播客节目的用户收听动机研究——基于喜马拉雅平台用户评论的考察[J].新闻大学,2023(07):101-116+121.[13]邱鑫.报业播客的现状、问题及未来发展[J].青年记者,2024(03):27-32.[14] Sodiq Oyetunji Rasaq.AI-Driven Solutions in Content Creation:A New Era of Personalized Podcasting[J].International Journal of Novel Research in Engineering & Pharmaceutical Sciences,2025,11(1):5.[15]郭海威,胡正荣.主流媒体系统性变革的基本要求、战略目标与实践路径[J].中国出版,2025(02):3-10.[16]郑志亮,武磊.学术播客:提升学术期刊数字阅读服务功能的策略探析[J].中国编辑,2024(03):54-58.[17]魏玉山,李子瑶,丛挺.学术的“声音”:基于中文学术播客的在地观察与发展思考[J].中国编辑,2023(07):44-50.[18]唐·伊德.让事物“说话”:后现象学与技术科学[M].韩连庆,译.北京:北京大学出版社,2008:47.[19]康紫悦.声音互动中的城市形象塑造研究[D].浙江传媒学院,2024:4.(邱鑫:西南政法大学新闻传播学院博士研究生)【文章刊于《青年记者》2026年第1期】本文引用格式参考:邱鑫.深耕有限性:AI播客的生成逻辑、实践困囿与适配场景[J].青年记者,2026(01):73-80.编辑:小青返回搜狐,查看更多

OCR:IMG:本刊投稿渠道 投稿邮箱:qnjzbj@qq.com 投稿网址:qnjz.cbpt.cnki.net

OCR:IMG:AI播客生成器 输入文本 产品亮点 产品接口 NotebookLM音 文件、网站、视频、 综合能力最强的AI播 PC端 频概览 音频和幻灯片等 客生成器 URL、PDF、视频 创建、编辑和发布一 Jellypod PC端 其他数据源 键式完成 多语种翻译,抓取重 PC端/ 声智App 链接、文档/文件 点内容并重组为口语 移动端 化对话 URL、 文本或自定义 PodLM 内容讲解较为专业 PC端 主题 Podcast 图片、图片URL或 开源播客内容发布与 PC端 Generator 即时照片 管理 PC/ 豆包·AI播客 PDF、网页 接人大模型语言 移动端 接入知识库,应用场 腾讯混元AI播客 文本、网页、文档 PC端 景更广

OCR:IMG:AI播客生成器 身份设置 对话者数量 输出形态 NotebookLM 自动化 双人对话 访谈型播客 音频概览 Jellypod 自定义 双人或多人对话 访谈型播客 声智App 自定义 双人对话 讨论型播客 PodLM 自定义 双人或多人对话 访谈或讨论型播客 PodcastGenerator 自动化 双人对话 讨论型播客

OCR:IMG:AI播客生成器 语言种类 制作方式 其他声音元素 NotebookLM 英语 自动添加 自动化生成 音频概览 背景音乐 英语、西班牙语、法 语、印地语、葡萄牙 自定义 Jellypod 声音克隆 语、汉语、德语、日 背景声音 语、阿拉伯语等29种 12种音色的语音 声智App 汉语 无 库与声音克隆 从各种逼真的AI 汉语、英语、日语、 精选的免版税 PodLM 语音中选择为 韩语等10种语言 背景音乐 播客配音 AI配音,支持情 Podcast 自动添加 汉语、英语、日语 感表达,多种音 Generator 背景音乐 色可选
OCR:IMG:本刊投稿渠道 投稿邮箱:qnjzbj@qq.com 投稿网址:qnjz.cbpt.cnki.net
内容提及地域:云南省
IP属地:山西省