核心技术

所有绚烂的未来,始于这一步

认知智能

感知智能

智能音乐

信号处理

自然语言理解

融合概念知识库的语义深度理解方法

上下文敏感的对话交互过程
高效解决口语对话中的各种问题

自然语言生成

基于对话管理技术,将概念结构转化为语言进行表述

对话管理

基于深度语言理解技术,支持动态语境下的多轮次复杂对话

解决对话中口语化表达、省略、上下文指代等难题

实现动态语境下的深度语义理解

语音识别

2017ORL1秒短语音识别大赛
灵伴在全球19个国家和地区的30多个科研队伍中脱颖而出
获得中国区第一名

复杂环境识别能力
不同说话人区分识别能力
低系统成本下的高识别能力

语音合成

核心研发团队荣获Blizzard Challenge 2013 国际语音合成大赛第一名
被主办方评定为语音合成领域第三次里程碑式技术突破

高效的语言分析能力
接近真人的自然表达能力
高效稳定的合成能力
多语种说话能力
合成需求可灵活配置

声纹识别

六大优势实现基于声纹的在线安全认证机制
保障敏感业务安全服务

抗噪声特征提取技术
自动语音检测技术
短语音声纹建模技术
灵活的话术设计及对话流程设计
结合内容和情绪等综合判决方案
深度学习声纹建模技术

情绪识别

多层次言语行为情绪感知引擎结合实时监控系统
快速准确侦测用户语音语调、言语行为等用户情绪问题

语音层面
语义层面
行为层面

人脸识别

通过对图像或视频中的人脸进行特征提取和匹配,实现人脸及其身份信息的确认和辨识

语种识别

用于识别说话人所使用的语言种类或方言,目前可支持汉语、英语等十余种语言识别

文字识别

通过对图像进行分析和处理,自动抽取其中的文字内容,转换为可编辑检索的字符串形式

A I 作曲

实现了对传统音乐生产方式的颠覆式创新
使批量生产优质音乐内容成为可能
2015年11月发布首个AI作曲作品
早于google同类项目8个月
在旋律流畅度、风格多样性上更胜一筹

自动和弦生成及乐器编配
自动变奏
风格识别与模拟
基于深度神经网络的旋律学习与生成

歌声合成

能够以极小的数据量合成极高品质的歌声
极大提升基频动态变化的自然度
充分实现用户的歌唱梦想

音色学习与迁移技术
小语料个性化合成模型训练
基频动态变化自然度修正

全息声场

借助人工智能及信号处理技术,打造全空间的听觉盛宴 为大众提供低成本的顶级音乐现场还原体验 2018年5月灵伴荣获意大利米兰第144届AES技术创奖是中国团队70余年首次在该领域获奖

32路球形麦克风阵列采集器
8-32声道音频重放系统
高效率高品质的多声道音频传输
智能声场环境实时监控
基于环境反馈的声场自适应调整
音频空间信息编辑

麦克风阵列

有效的在消费领域的垂直场景应用环境中对采集的不同空间方向的声音信号进行空时处理
提高语音信号处理质量
提高真实环境下的语音识别率

阵列增益
声源跟踪
声源测向
人声干扰抑制
混响去除
噪声抑制

语音增强

用于去除语音中的噪声,提高语音信噪比
可实现针对不同应用场景下的多种语音增强
单麦克风增强、麦克风阵列增强可显著提升语音质量和识别效果

回声消除

对本地回声抵消水平不低于30dB
可有效防止回声干扰和自激啸叫