最近ChatGPT火了!写代码、写情书、写文章、做题……它啥都会。在ChatGPT强大的功能背后,离不开业内不断精进的人工智能技术的支撑。零样本学习就是ChatGPT的核心技术之一。
近日,天翼云智能边缘事业部AI团队在中文语言理解零样本学习权威榜单ZeroCLUE中拔得头筹,这标志着天翼云AI在认知智能领域处于行业领先地位。
天翼云智能边缘事业部AI团队部分成员合影
ZeroCLUE是中文语言理解零样本学习的权威榜单,在学术和工业界有着广泛影响力,吸引了IDEA研究院、OpenBMB等众多高水平科研单位和企业竞相角逐。天翼云AI团队以76.217的总分夺得榜单桂冠,成绩大幅领先第二名。同时,天翼云AI团队在榜单“BUSTM任务”中占据榜首,成为该任务中唯一突破90分的团队。
ZeroCLUE 榜单(2023.02.15),其中Human表示人类测评成绩
零样本学习(Zero-Shot Learning)是自然语言处理技术中重要的研究方向,旨在突破全监督学习范式,让AI算法在数据稀缺、标注困难的场景中更好地发挥作用。
ZeroCLUE榜单包含EPRSTMT(电商评论情感分析)、CSLDCP(科学文献学科分类)、TNEWSF(新闻分类)、IFLYTEKF(应用描述主题分类)、OCNLIF(自然语言推理)、BUSTM(对话短文本匹配)、CHIDF(成语阅读理解)、CSLF(摘要判断关键词判别)、CLUEWSCF(代词消歧)9大任务,涵盖了当今自然语言处理技术的主流研究方向。参赛者的排名则由上述9个任务的平均得分决定。下图展示了上述任务的具体数据细节。
本次打榜竞赛中,天翼云AI团队的算法核心之一是采用了“统一多项选择”(Unified Multiple Choice)的思想,将不同范式的自然语言处理任务统一转化为多项选择任务,使得在训练和微调阶段,每个任务都能从其它数据与任务中获益。
例如在TNEWSF(新闻分类)任务中,原任务范式为:
text = "女明星自拍,迷之角度竟这么好看,美吸引一切事物" predicted label= "娱乐" |
Unified Multiple Choice范式为:
text = "女明星自拍,迷之角度竟这么好看,美吸引一切事物" question = '下面新闻属于哪一个类别?' choice = ["故事", "文化", "娱乐", "体育", "财经",…] answer = "娱乐" |
基于以上思想对每个任务进行范式的设计和统一,并结合开源模型进行算法优化和测试,最终不仅能够增强模型在本任务中的性能,也提升了其处理不同任务的泛化能力。
本次天翼云AI团队在竞争激烈的ZeroCLUE打榜中脱颖而出,源于其在认知智能领域的技术沉淀,以及对业务场景的深度理解和应用。
值得一提的是,天翼云的零样本学习技术在实际业务中已获得了广泛应用。例如,在知识平台中使用零样本学习技术对大量非结构化数据进行知识挖掘和管理;在缺乏样本的场景中使用零样本学习技术提升底层算法的知识抽取能力,进而提高平台上层智能搜索、推荐、问答等业务性能。
未来,天翼云将继续推进人工智能技术的创新突破,加快打造原创技术策源地,以更多的数字技术应用,赋能千行百业数字化转型。