党的十八大以来,党中央高度重视发展数字经济,实施网络强国战略和国家大数据战略,拓展网络经济空间,支持基于互联网的各类创新,推动互联网、大数据、人工智能和实体经济深度融合,建设数字中国、智慧社会,推进数字产业化和产业数字化。
云南省委、省政府认真贯彻落实党中央、国务院关于发展数字经济的战略部署,将数字经济作为重点工作来推动。从传统产业到政府公共服务,再到民生领域,数字潜力加速释放,数字经济正成为推动云南高质量发展的强大引擎。2021年,全省数字经济核心产业营业收入突破1900亿元,增长率超过20%。
以数字赋能,让万物互联。云南在数字经济建设中大胆尝试、共建共享,成绩可圈可点。即日起,本报将推出云南数字经济发展系列报道,以飨读者。
《云南省数字经济发展三年行动方案(2022—2024年)》提出,将实施8大行动26项工程,推动云南省数字经济发展迈上新台阶。其中,针对人工智能技术在南亚、东南亚国家多语种领域应用上,方案提出要培育人工智能重点产品和龙头企业,支持云南省人工智能重点实验室突破人工智能机器翻译、中文与多语种软件和双语互译等关键技术,持续推动多语种人工智能应用孵化和产业生态构建。
云南省人工智能重点实验室是由云南省科技厅批准成立,依托昆明理工大学建设的省级重点实验室,部分研究成果达到了国内领先、国际先进水平。近日,本报记者专访云南省人工智能重点实验室常务副主任高盛祥,了解实验室目前的核心成果,以及在主动融入和服务“一带一路”建设,助力云南面向南亚东南亚辐射中心建设中,发挥了哪些重要作用。
记者:请您介绍一下云南省人工智能重点实验室的基本情况。
高盛祥:实验室成立于2005年,2014年和2015年先后遴选为云南省高校模式识别与智能计算重点实验室和云南省海量语言信息处理工程实验室,2019年由云南省科技厅批准,依托昆明理工大学建设云南省人工智能重点实验室。
实验室在余正涛教授的带领下,15年来,结合国家“一带一路”倡议和云南省面向南亚东南亚辐射中心定位需求,面向越、老、缅、柬、泰等南亚、东南亚语言,开展自然语言处理与机器翻译、信息检索和社会计算、语音识别及合成、图像识别与检索等方向的研究,取得了一系列成果,部分成果达到了国际领先水平。
实验室有一支260余人的研究队伍,其中教授、副教授30余人,博士硕士研究生200余人,拥有国家“万人计划”科技创新领军人才、国家百千万人才,云南省科技领军人才,兴滇人才、产业领军人才等国家及省部级人才20余人。承担了国家重点研发计划项目、课题、国家自然科学基金重点、面上、地区项目、云南省科技重大专等国家及省部级项目100余项,在国内外高水平会议及期刊发表论文400余篇,其中SCI/EI检索300余篇,授权发明专利80余项,登记软件著作权200余项,获得云南省自然科学一等奖、云南省科技进步一等奖、云南省教学成果一等奖等省部级奖励10余项。
记者:云南省人工智能重点实验室成立的初衷是什么?
高盛祥:“一带一路、语言铺路”。语言相通是促进不同国家之间政策沟通、道路联通、贸易畅通、货币流通及民心相通的基础保障。云南省作为“一带一路”的重要节点,要主动服务和融入国家“一带一路”建设,打造面向南亚东南亚的辐射中心,促进面向南亚、东南亚的政治经济文化交流合作,都亟需打破语言壁垒,实现不同国家之间的语言互通。但越南语、老挝语、柬埔寨语、缅甸语、乌尔都语等南亚、东南亚语言都属于资源稀缺语言,机器翻译、跨语言信息检索、OCR文字识别、语音识别及合成等人工智能的关键技术都还不成熟,相关的软硬件产品还很少,对产业的支撑作用还不明显。
因此,实验室定位于南亚、东南亚的语言语音信息处理方向研究,突破语言信息处理、机器翻译、跨语言检索、OCR文字识别、语音识别及合成等一系列关键技术,面向跨境旅游、跨境贸易、跨境商务交流、文化产品译制、国际传播分析、跨境大数据分析等应用场景研发智能翻译机、多语言会议同传系统等一系列的软硬件产品,推动南亚、东南亚语言语音关键技术与产业深度结合,促进云南省面向南亚东南亚数字经济先行示范区建设和面向南亚东南亚辐射中心建设。
记者:云南省人工智能重点实验室成立以来,遇到了哪些难题,是如何化解的?
高盛祥:实验室从2005年开始,面向南亚、东南亚的语言信息处理方面的研究,这个研究方向非常有特色,但是也面临了很多难题。一方面,基于深度学习的机器翻译、跨语言检索等人工智能技术都需要大规模标注语料,这项工作离不开语言专家参与,而懂南亚、东南亚语言的人非常少,语料构建的难度非常大,成本非常高;另一方面,南亚、东南亚语言的形态比较复杂,开展南亚、东南亚语言信息处理的研究机构和科研团队都很少,直接将中英文的语言处理技术迁移到南亚、东南亚语言上效果不理想,面向南亚、东南亚语言的词法句法解析、机器翻译、跨语言检索等关键技术都不成熟,研究难度较大。
实验室扎根云南,围绕以上难点问题长期不懈地开展研究。一方面,聚焦南亚、东南亚语言信息处理等方向,积极申请国家重点研发计划、国家自然科学基金、云南省科技重大专项等项目,近年来获得了数十项国家及省部级项目的支持,为研究工作提供了重要的支撑;另一方面,实验室高度重视人才引进和培养工作,近年来引进和培养该方向博士研究生10余人,形成了稳定的南亚、东南亚语言信息处理技术团队,实验室还和周边的高校以及昆工国际学院建立了良好的合作关系,组建了一支50余人由南亚、东南亚小语种教师及留学生组成的语言专家团队,为项目语料采集、标注、语言评测、事件分析等提供语言服务支撑。
通过多年的建设,实验室形成了一支结构合理、稳定的高水平南亚、东南亚研究团队,形成了特色研究方向,在南亚、东南亚语言资源库建设、语言词法句法解析、机器翻译及跨语言检索等方面形成了一系列创新性成果。
记者:目前,实验室的核心成果有哪些,应用在哪些领域,部分研究成果填补了哪些空白?
高盛祥:在南亚、东南亚语言资源库构建方面,实验室构建了百万级中文—东南亚语言双语词典、十亿级平行句对等资源库,填补了大规模东南亚语言对齐知识及语料库的空白,对推动东南亚语言信息处理规模化、商业化应用提供了数据和知识支撑。
在南亚、东南亚语言解析方面,实验室搭建了面向南亚、东南亚语言信息处理平台——小语洞析,实现越南语、老挝语等语言的分词、词性标记、实体识别等功能,填补了面向东南亚语言词法句法解析的空白,很好地推动了南亚、东南亚语言信息处理方向的研究工作。
在南亚、东南亚语言机器翻译方面,研发了面向南亚、东南亚语言的神经机器翻译系统——云岭翻译,支持越、老、缅、柬、泰、菲律宾、印尼、马来语、印度语、乌尔都语等108个语种的双向神经机器翻译引擎,覆盖了“一带一路”沿线多个国家,翻译效果达到了业内领先水平。
在多语言事件检索及分析方面,研发了面向南亚、东南亚的跨语言事件分析和检索系统,实现了南亚、东南亚语言的新闻数据采集、事件检索、热点话题发现、热点话题跟踪、观点挖掘等功能。
目前,研究成果已在跨境旅游、跨境贸易、跨境电子商务、教育培训、多语言会议、文化产品输出、国际传播、政务服务、安全等领域得到了很好的应用,取得了很好的社会经济效益。
记者:实验室研发的南亚、东南亚语言翻译机、翻译软件,在主动融入和服务“一带一路”建设、助力云南面向南亚东南亚辐射中心建设中,发挥了哪些重要作用?
高盛祥:近年来,随着数据资源的不断积累和技术的不断成熟,实验室研发的南亚、东南亚语言机器翻译、跨语言检索等技术已基本达到了实用化程度,研发的云岭翻译、智能翻译机、跨语言事件分析和检索等一系列软硬件产品也得到了很好的应用。
在维护国家安全方面,机器翻译在相关安全部门部署应用,提供海量小语种文档的批量快速翻译,解决了南亚、东南亚信息获取与分析的难点问题。
在边境疫情防控方面,为瑞丽、陇川、芒市等边境城市捐赠300余台翻译机,发布了免费版南亚、东南亚语言翻译App,极大地缓解了流调、医院等场景下的外籍人员的交流困难问题。
在公众服务方面,云岭翻译面向公众提供在线的、免费的机器翻译服务,日均翻译超600万次,日均翻译字符超3亿,有效地支撑了公众面向南亚、东南亚的翻译需求。
在国际传播方面,研发了南亚、东南亚文化产品译制平台,译制完成了《西游记》《走遍云南》等大量影视剧及纪录片,提高了译制效率,节约了译制成本,提升了面向南亚、东南亚的国际传播能力。
另外,研发的翻译产品在教学资源翻译、多语言课堂交流、旅游景点多语言翻译、多语言导游讲解、合同翻译等跨境教育、跨境旅游、跨境贸易等领域也得到了很好的应用。
记者:实验室自主研发的“云岭翻译”上线“一部手机办事通”,在助力云南智慧政务方面取得了哪些成效?
高盛祥:云南省一部手机办事通是云南省数字政府建设的重要抓手,平台注册用户目前已经超过了2000万人。实验室研发的云岭翻译2021年上线了云南省一部手机办事通平台,提供了中—英、越、泰等语种的免费翻译服务,目前累计翻译次数已经超3000万次,是全国首家上线政务平台的翻译系统,很好地缓解了在外商投资、出入境审批等跨境管理服务中的语言沟通难题,创新了政务管理服务模式,提升了政府政务管理及服务能力。
记者:实验室研发的产品,在促进跨境贸易便利化、高效化上,发挥了哪些作用?
高盛祥:随着“一带一路”建设推进,我国与南亚、东南亚国家在经济合作方面增长迅速,今年1月—5月,中国和东盟继续互为最大的贸易伙伴,实验室研发的机器翻译平台、翻译App、智能翻译机等软硬件产品在跨境贸易合作方面发挥了重要作用。
在跨境合作方面,提供了合同文书、教材课件、宣传视频、产品介绍等文本、视频文档的快速翻译,提升了跨境合作交流的水平。
在跨境电子商务方面,为云南省口岸通关系统及多家跨境电子商务平台提供多语言翻译技术支撑。
在跨境贸易谈判方面,研发的多语言会议、多语言社交平台等交流产品能够实现不同国家人员通过自己语言进行交流,很好地缓解了不同国家之间人员的交流难题。
在境外大数据获取和分析方面,搭建了面向南亚、东南亚的大数据分析平台,通过采集境外数据并进行智能化的分析,及时获取境外企业的产品、市场需求、价格变动等相关的商业信息,提高了企业的竞争力,在促进云南省优势企业走出去,推动云南省数字经济发展方面发挥了重要作用。
记者:目前,南亚、东南亚语言机器翻译关键技术转化及应用前景是怎么样的?
高盛祥:实验室与清华大学、中科院自动化所、老挝国立大学、鹏城国家实验室、OPPO、小牛等高校、科研院所和企业等建立了长期良好的合作关系,联合开展成果研发和转化工作,研发的语言解析、机器翻译及跨语言检索等核心关键技术在数十家翻译公司、智能翻译硬件产品制造等相关企业进行了转化和应用,提升了企业的竞争力,取得了很好的经济效益。
随着南亚、东南亚语言机器翻译技术的不断成熟,相关的机器翻译产品和应用场景会越来越多,在跨境旅游、跨境贸易、国际传播等众多场景下也会有更多新的需求和新的应用,我们也会围绕这个目标持续不断的打磨技术,研发新的产品,实现更多更有的技术到产品的转化。
记者:机器翻译的未来场景有哪些,云南省人工智能重点实验室的发展方向是什么?
高盛祥:随着国家“一带一路”建设的不断深入,南亚、东南亚语言信息处理技术会取得更大的突破,机器翻译的性能也会进一步提升,有望在跨境旅游、跨境贸易、国际传播、跨境教育、跨境信息服务等方面形成多个千亿级的产业,应用前景非常广阔。
然而,目前实验室的研究工作主要解决的还是文本翻译和理解问题,随着应用的不断深入,多语言、多模态等新需求会不断涌现,在大量实际场景下还需要解决南亚、东南亚语言之间的互译及语音、图像、视频、文本等不同模态数据翻译及不同语言、不同模态场景下的跨语言事件分析和检索等一系列难题。
实验室将继续围绕以上关键技术难题,突破面向语音、图像、视频等多模态和多语言复杂场景的机器翻译技术,提升面向安全、贸易等特定领域的机器翻译性能,打造一系列产业应用场景下的南亚、东南亚语言信息处理能力支撑平台及产业应用平台,打造一支国际一流的高水平研究团队,促进相关产业发展,为云南面向南亚东南亚辐射中心建设提供持续动力。