AI三大领域

1,计算机视觉

由简到难分为三个层次:处理、识别检测和分析理解。
图像处理层面主要是对图像的像素的处理;
图像识别检测包含语义信息的简单探索;
图像理解还有很多值得研究的地方。

图像处理层面主要包含去噪声、去模糊、超分辨率处理、滤镜处理等;
图像识别检测包含图像的分类、定位、检测、分割;
图像理解主要有基于文本的图像搜索、图像描述生成、图像问答(给定图像和问题,输出答案)等。

2,语音处理

完整的语音系统包括前端的信号处理、中间的语音语义识别和对话管理(更多涉及自然语言处理)、以及后期的语音合成。

语音的前端处理中包含几个模块。
说话人声检测:有效地检测说话人声开始和结束时刻, 区分说话人声与背景声;
回声消除:当音箱在播放音乐时,为了不暂停音乐而进行有效的语音识别,需要消除来自扬声器的音乐干扰;
唤醒词识别:人类与机器交流的触发方式,就像日常生活中需要与其他人说话时,你会先喊一下那个人的名字;
麦克风阵列处理:对声源进行定位,增强说话人方向的信号、抑制其他方向的噪音信号;
语音增强:对说话人语音区域进一步增强,、环境噪声区域进一步抑制,有效降低远场语音的衰减。

语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。除了前面提到的远场识别问题之外,还有许多前沿研究集中在解决“鸡尾酒会问题”。

考虑到语义识别和对话管理环节更多是属于自然语言处理的范畴,剩下的就是语音合成环节。
语音合成的几个步骤包括:文本分析、语言学分析、音长估算、发音参数估计等。

3,自然语言处理

NLP包括知识的获取与表达、自然语言理解、自然语言生成等等,也相应出现了知识图谱、对话管理、机器翻译等研究方向,与前述的处理环节形成多对多的映射关系。

知识图谱是基于语义层面对知识进行组织后得到的结构化结果,可以用来回答简单事实类的问题。 包括语言知识图谱(词义上下位、同义词等)、常识知识图谱(“鸟会飞但兔子不会飞”)、实体关系图谱(“刘德华的妻子是朱丽倩”)。知识图谱的构建过程其实就是获取知识、表示知识、应用知识的过程。

语义理解是自然语言处理中的最大难题,以中文为例,这里面需要解决4个困难:
首先是歧义消除,包括词语层面、短语层面、句子层面的的歧义;
其次是上下文关联性,例如“小明欺负小李,所以我批评了他。”,需要依靠上下文才知道我批评的是调皮的小明;
第三是意图识别,“晴天”可以指天气也可以指周杰伦的歌
最后一块是情感识别,显性与隐性的情感识别(“我不高兴”和“我考试没考好”都是用户在表示心情低落)。

目前对话管理主要包含三种情形,按照涉及知识的通用到专业,依次是闲聊、问答、任务驱动型对话。

如果文章对您有用请随意打赏,谢谢支持!
0%