AI三大领域

1,计算机视觉

由简到难分为三个层次：处理、识别检测和分析理解。
图像处理层面主要是对图像的像素的处理；
图像识别检测包含语义信息的简单探索；
图像理解还有很多值得研究的地方。

图像处理层面主要包含去噪声、去模糊、超分辨率处理、滤镜处理等；
图像识别检测包含图像的分类、定位、检测、分割；
图像理解主要有基于文本的图像搜索、图像描述生成、图像问答（给定图像和问题，输出答案）等。

2,语音处理

完整的语音系统包括前端的信号处理、中间的语音语义识别和对话管理（更多涉及自然语言处理）、以及后期的语音合成。

语音的前端处理中包含几个模块。
说话人声检测：有效地检测说话人声开始和结束时刻, 区分说话人声与背景声；
回声消除：当音箱在播放音乐时，为了不暂停音乐而进行有效的语音识别，需要消除来自扬声器的音乐干扰；
唤醒词识别：人类与机器交流的触发方式，就像日常生活中需要与其他人说话时，你会先喊一下那个人的名字；
麦克风阵列处理：对声源进行定位，增强说话人方向的信号、抑制其他方向的噪音信号；
语音增强：对说话人语音区域进一步增强,、环境噪声区域进一步抑制,有效降低远场语音的衰减。

语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。除了前面提到的远场识别问题之外，还有许多前沿研究集中在解决“鸡尾酒会问题”。

考虑到语义识别和对话管理环节更多是属于自然语言处理的范畴，剩下的就是语音合成环节。
语音合成的几个步骤包括：文本分析、语言学分析、音长估算、发音参数估计等。

3,自然语言处理

NLP包括知识的获取与表达、自然语言理解、自然语言生成等等，也相应出现了知识图谱、对话管理、机器翻译等研究方向，与前述的处理环节形成多对多的映射关系。

知识图谱是基于语义层面对知识进行组织后得到的结构化结果，可以用来回答简单事实类的问题。包括语言知识图谱（词义上下位、同义词等）、常识知识图谱（“鸟会飞但兔子不会飞”）、实体关系图谱（“刘德华的妻子是朱丽倩”）。知识图谱的构建过程其实就是获取知识、表示知识、应用知识的过程。

语义理解是自然语言处理中的最大难题，以中文为例，这里面需要解决4个困难:
首先是歧义消除，包括词语层面、短语层面、句子层面的的歧义；
其次是上下文关联性，例如“小明欺负小李，所以我批评了他。”，需要依靠上下文才知道我批评的是调皮的小明；
第三是意图识别，“晴天”可以指天气也可以指周杰伦的歌
最后一块是情感识别，显性与隐性的情感识别（“我不高兴”和“我考试没考好”都是用户在表示心情低落）。

目前对话管理主要包含三种情形，按照涉及知识的通用到专业，依次是闲聊、问答、任务驱动型对话。