《天气公报》走进人工智能时代
来源:2019年7月17日《中国气象报》第3版
作者:齐丹 吴鹏
“未来三天,西南地区东部、西北地区西部和东南部、江汉等地自西向东将有中到大雨。其中,四川盆地东部、陕西南部、江汉等地局地有暴雨或大暴雨……”
这是中央气象台每天都会发布的《天气公报》,如果你经常关注天气预报,可能对此已经非常熟悉。在天气预报节目中,主持人在屏幕前“指点江山,激扬文字”的背后,依据的就是这份《天气公报》。但你或许不知道的是, 自去年开始,《天气公报》就由人工智能来制作。
近年来,国内外人工智能在天气预报领域的应用出现爆发式增长,并且呈现出由传统的机器学习向深度学习发展的趋势。在人工智能时代,中央气象台是如何将人工智能与气象服务需求进行深度融合,从而实现《天气公报》的自动生成呢?
人工时代
1970 年, 中央气象台开始向国务院及有关部委报送《天气公报》, 可以说,《天气公报》的演变史, 见证着新中国气象事业的发展。
《天气公报》每天早晚发布两次, 每份报文有千字左右的编辑量, 制作一份准确、及时的公报需要较强的气象专业背景知识与多年的实际工作经验做支撑, 但也存在大量的机械式重复工作。随着气象服务的应用范围越来越广, 气象服务产品的种类也越来越多, 服务材料的广度、深度和精细化程度对气象工作人员提出了越来越高的要求。由预报员人工撰写《天气公报》不仅编写效率极其低下, 常常满足不了时效性要求, 还会由于预报员知识背景差异等原因导致文本内容出现偏差。因此, 如何用人工智能等新技术产出一份准确、高效、合理、符合自然语言表达的《天气公报》一直是科学家在研究的课题。
国外于20 世纪70 年代初就已经开始重视天气预报文本的计算机自动生成研究。最早的天气预报文本生成器采用了文字替换法, 代表性的业务应用系统包括IFPS、RAREAS、MarWords、Scribe 等。20 世纪90 年代初, 科学家开始引入自然语言处理技术, ForecastGenerator (FoG) 、SumTimeMeteo 等一些面向特定天气预报领域的文本生成系统也得到了一定的发展与应用。
相比之下, 国内相关领域的研究开展较晚, 但发展很快, 真正意义上基于自然语言处理技术的成果可以追溯到2000 年上海交通大学开展的多语种天气预报文本自动生成系统(MLWFA) 初步研究。总体来看, 国内外这些研究为面向气象领域的自然语言文本生成进行了有益探索并奠定了一定的基础。
智能时代
《天气公报》由天气实况、重点天气提示、未来三天具体预报以及“ 影响与关注” 等四个部分组成, 涵盖了天气监测、天气预报与应用服务等内容, 是多个领域气象工作成果集大成的体现。然而, 要想利用人工智能自动生成这样一份图文并茂的公报可并非易事。如果说以往是预报员根据预报图“ 看图说话”, 那么要让机器也能“ 看图说话”,研究人员需要结合自然语言处理技术和GIS 空间分析技术, 利用大量历史《天气公报》对机器进行训练, 将复杂专业的多维气象数据转换为浅显的自然语言, 使其获得“ 气象语言特征”“ 地理区划分析” 和图文的“ 叠加分析” 能力, 最后应用“ 气象服务信息模板库”, 打通公报自动生成的最后一公里。
总体来说, 机器学习在公报自动生成过程中包括的关键步骤包括: 降水文字分析模型, 利用词汇训练技术, 分析出降水描述中各类词汇之间的逻辑关系和顺序结构, 为下一步与降水数据的对接提供模型支撑; 地理区划移动趋势图, 通过对材料的整理、分析、判断并结合业务人员的经验, 分析出区划描述的趋势模型, 得出语言描述顺序;叠加分析图,利用GDAL 开源技术实现对数据的裁剪分析、叠加处理、合并分析, 根据叠加面积百分比判断区划内容是否需要描述; 雨带描述, 在降雨趋势分析中, 涉及时间和空间两个维度, 利用图中映射关系分析, 得到有限方向一致的映射线,最终给出雨带趋势的描述。
经过这四个步骤, 一份“ 高大上” 的《天气公报》便自动生成了!以往50 分钟的工作量,现在缩减到了10 分钟左右。“在延续多年的‘ 多人撰写、多人校对’ 工作方式后, 目前通过公文自动生成技术, 业务上已经实现公文自动生成。《天气公报》自动生成技术将人工修订量控制在15%、非汛期8%左右。”《天气公报》人工智能团队负责人、国家气象中心预报系统实验室高级工程师吕终亮说道。
这无疑是一项重大的进步。一方面,公报的自动生成极大减少了预报员的工作时间, 将预报与服务人员从繁重、重复的体力劳动中解放出来, 使其有更多的时间和精力用于真正思考如何更好地做好预报与服务, 从而提高预报准确率; 另一方面, 这将进一步拓宽服务材料的自动生成领域, 实现服务材料的多形式表达与快速多渠道发布, 不断满足用户精细化和个性化需求。
“现在,除了每日《天气公报》外,中央气象台发布的《海洋天气公报》《强对流天气预报》《海雾天气预报》等图文预报类产品均已实现自动生成,人工修订量在3%至10%左右,符合预报员的预期,已逐步在业务中推广应用。”吕终亮介绍说。
人工智能的最高境界——语言
语言是人类区别于其他动物的根本标志, 没有语言, 人类的思维也就无从谈起。然而, 语言中充满了大量歧义, 同样一个单词、短语或者句子在不同的语境下可能有多种理解方式, 产生多种可能的意思。在气象服务材料方面自然语言面临的问题更加复杂,在不同的天气情况下,服务材料的关注重点差异很大。
因此, 自然语言处理体现了人工智能的最高境界。也就是说, 只有当计算机具备了处理自然语言的能力时, 机器才算实现了真正的智能。天气预报公文自动生成技术真正实现了公报的智能撰写, 是人工智能技术应用在天气预报服务中的一次成功尝试。
目前, 人工智能在天气预报领域的应用包括观测数据质量控制、数值模式资料同化、数值模式参数化、模式后处理、天气系统识别、灾害性天气监测和临近预报、预报公文自动制作等很多方面。除了预报公文自动制作外, 目前中央气象台在定量降水融合预报、强对流天气分类潜势预报、台风智能检索等方面均采用了人工智能技术, 取得了鼓舞人心的效果。
事实上, 在人工智能的初期发展阶段, 有多少“ 智能”, 背后就有多少“ 人工”。如果没有预报员对机器进行训练,没有数以千计的历史公报作为训练材料,是不可能诞生自动生成模型的。因此, 对于“ 人工智能最终是否会取代预报员” 这种问题, 吕终亮说:“ 毕竟指导或训练机器完成任务的是预报员, 具备预测和分析关键性、转折性天气能力的也是预报员,人工智能在气象行业中的应用, 一方面取代了基础的重复性劳动, 一方面仍需预报员进行主导。在未来更多的气象应用场景中, 人工智能和预报员必将通力协作、和谐共处。”