Lazy loaded image
字数 0阅读时长 1 分钟
Invalid Date
type
Post
status
Draft
date
Oct 12, 2024
summary
slug
tags
AIGC应用开发
大语言模型
RAG
category
学习笔记
password
URL
icon
 
 
 

2024.10.19

Meta AI 发布 Meta Spirit LM 一个混合文本和语音的开源多模态语言模型
Spirit LM能够在语音和文本之间进行无缝转换
有两个版本: Base版本:可以处理语音的基本转换,适合一般的语音识别和生成任务。 Expressive版本:能够捕捉语音中的情感,生成带有这种情感的语音。 也就是可以根据文本、语音中的情感(如开心、愤怒、惊讶等)生成带有情感的语音,使机器说话更加自然 模型可以执行多种跨模态任务,包括: - 自动语音识别(ASR):将语音输入转换为文本输出。 - 文本转语音(TTS):将文本输入转换为语音输出。 - 语音与文本的混合生成:根据输入的模式自由生成文本或语音,并能够在生成过程中切换模态。 SPIRIT-LM-EXPRESSIVE 版本不仅能够理解情感,还能够通过不同的音调和风格生成具有表现力的语音。例如,通过改变输入语音的语调和风格,模型能够生成富有不同情感色彩的继续内容,如“愤怒”、“悲伤”或“兴奋”等。
SPIRIT-LM 支持通过少量训练样本进行任务学习,特别是在跨模态任务中,
它无需大量数据就可以执行诸如文本生成、语音生成、分类等复杂任务。
SPIRIT-LM 还可通过语音生成方式,继续故事情节,能够保持输入文本的连贯性和语义一致性。
详细介绍
论文
GitHub
 

2024.09.11

 
 

2024.09.19

Qwen2.5是由阿里云Qwen团队开发的大型语言模型系列。训练数据从Qwen2的7T tokens 扩展到了Qwen2.5的18T tokens该系列模型包括多种尺寸,从0.5B到72B不等,支持29种语言;上下文最大长度128K,其中超过32K的部分利用YARN来进行外推处理,并且最大生成长度8K。Qwen2.5在指令跟随、生成结构化输出和多语言支持方面有显著改进,适用于各种自然语言处理任务。同时还开源了Qwen2.5-Coder模型和Qwen2.5-Math模型。
 
 
上一篇
数据增强——在图片中添加遮挡物
下一篇
深度调研TradingAgents金融智能体