核心技术 2019-11-26T15:25:02+08:00

核心技术

所有绚烂的未来,始于这一步

自然语言理解

融合概念知识库的语义深度理解方法
高效解决口语对话中的各种问题
上下文敏感的对话交互过程

自然语言生成

基于对话管理技术,将概念结构转化为语言进行表述

对话管理

基于深度语言理解技术,支持动态语境下的多轮次复杂对话
解决对话中口语化表达、省略、上下文指代等难题
实现动态语境下的深度语义理解

语音识别

2017ORL1秒短语音识别大赛
灵伴在全球19个国家和地区的30多个科研队伍中脱颖而出
获得中国区第一名
不同说话人区分识别能力
复杂环境识别能力
低系统成本下的高识别能力

语音合成

核心研发团队荣获Blizzard Challenge 2013 国际语音合成
大赛第一名
被主办方评定为语音合成领域第三次里程碑式技术突破
高效的语言分析能力
媲美真人的自然表达能力
高效稳定的合成能力
多语种说话能力
合成需求可灵活配置

声纹识别

六大优势实现基于声纹的在线安全认证机制
保障敏感业务安全服务
自动语音检测技术
抗噪声特征提取技术
灵活的话术设计及对话流程设计
短语音声纹建模技术
深度学习声纹建模技术
结合内容和情绪等综合判决方案

情绪识别

多层次言语行为情绪感知引擎结合实时监控系统
快速准确侦测用户语音语调、言语行为等用户情绪问题
语音层面
语义层面
行为层面

人脸识别

通过对图像或视频中的人脸进行特征提取和匹配,实现人脸及其身份信息的确认和辨识

语种识别

用于识别说话人所使用的语言种类或方言,目前可支持汉语、英语等十余种语言识别

文字识别

通过对图像进行分析和处理,自动抽取其中的文字内容,转换为可编辑检索的字符串形式

AI作曲

实现了对传统音乐生产方式的颠覆式创新
使批量生产优质音乐内容成为可能
2015年11月发布首个AI作曲作品
早于google同类项目8个月
在旋律流畅度、风格多样性上更胜一筹
风格识别与模拟
基于深度神经网络的旋律学习与生成
自动和弦生成及乐器编配
自动变奏

歌声合成

能够以极小的数据量合成极高品质的歌声
极大提升基频动态变化的自然度
充分实现用户的歌唱梦想
音色学习与迁移技术
小语料个性化合成模型训练
基频动态变化自然度修正

全息声场

借助人工智能及信号处理技术,打造全空间的听觉盛宴
为大众提供低成本的顶级音乐现场还原体验
2018年5月灵伴荣获意大利米兰第144届AES技术创奖
是中国团队70余年首次在该领域获奖
8-32声道音频重放系统
32路球形麦克风阵列采集器
智能声场环境实时监控
高效率高品质的多声道音频传输
音频空间信息编辑
基于环境反馈的声场自适应调整

麦克风阵列

有效的在消费领域的垂直场景应用环境中对采集的
不同空间方向的声音信号进行空时处理提高
语音信号处理质量
提高真实环境下的语音识别率
混响去除
噪声抑制
声源测向
人声干扰抑制
阵列增益
声源跟踪

语音增强

用于去除语音中的噪声,提高语音信噪比
可实现针对不同应用场景下的多种语音增强
单麦克风增强、麦克风阵列增强可显著提升语音质量和识别效果

回声消除

对本地回声抵消水平不低于30dB
可有效防止回声干扰和自激啸叫