我校数据工程中心育出垃圾分类金手指

更新于 2019-11-20 13:43   发表于 2019-11-20 13:43   访问次数:2223 上一篇 下一篇

校园新闻网讯 《宁波市生活垃圾分类管理条例》刚实施了短短一个多月,我校理学院数据工程中心所研发的国内首款多源标注数据生活垃圾分类人工智能APP“阿拉去分类”就登陆安卓应用市场,微信小程序也同步推出。该款APP可通过拍照方式识别垃圾种类,准确率达80%以上。

“今年上半年,市里宣布即将实施《宁波市生活垃圾分类管理条例》后没多久,数据工程中心主任尹志就和我商量,希望带领中心30余位数学博士和人工智能专家,通过大数据和人工智能技术,为宁波垃圾分类做点事儿。社会服务是高校的基本职能之一,我们当场一拍即合。”理学院院长陈志荣回忆起开发此款APP的缘由时说。

“开发APP的想法得到了宁波市大数据发展管理局局长叶春华的支持。7月,中心迅速成立了项目组,并邀请宁波市生活垃圾指导中心主任张路担任专家顾问。”尹志谈到初期工作迅速推进时,脸上都是笑意。

队伍组起来了,如何选择算法和技术才能使分类精度最高成了项目组需要解决的头等大事。“‘阿拉去分类’微信小程序端采用的是我们公司的TensorFlow.js框架技术,这项技术刚推出不久,工程中心团队所提出的很多问题我们公司在全球范围内都未曾遇到过。公司也非常想依托中心的科研能力不断完善该项技术,于是,我们参与到了该款小程序的开发讨论中来,共同解决问题。”谷歌公司资深开发工程师Shanqing Cai说。

技术的问题得到了解决,团队却又遇到了新的难题。“比技术更难解决的是数据问题。什么是数据?其实就是垃圾的照片。宁波市的垃圾分类标准涵盖了三百多个小类,要实现精准分类,喂给模型的每张图片都必须准确无误地打上标签。我们希望这款APP像一个身经百战的足球前锋一样,能把每一张图片准确无误地‘踢进’他面前的300多个球门里。要做到这一点必须以拥有海量、分类无误的照片作为依据。”尹志谈到设计理念时这样说道。

理想很丰满,现实却非常骨感。市场上没有分类的数据集,从网络上收集来的图片质量参差不齐、标签不准,人工收集照片并标记效率过低……但项目组没有轻易放弃。经过充分的思考和验证,尹志带领团队首创了“多源标注数据法”,即把网上采集的图片作为弱标签数据,把人工标记的图片作为强标签数据,将二者组合使用,有效提升了数据的利用率,随着喂给模型的训练数据的质量、数量的大幅提升,识别准确度也在不断攀高。

“阿拉去分类”项目组不仅在数据算法层面进行了深入研究,在数据来源方面也进行了创新。项目组在市生活垃圾指导中心的支持下,通过宁波青少年科普公益机构快乐代码招募了大量对垃圾分类和人工智能感兴趣的青少年志愿者,对他们进行分类、数据标注、机器学习等培训。志愿者家长表示:“孩子们通过参加活动,认识到垃圾分类刻不容缓,对人工智能、大数据等科技前沿词汇有了初步的感性认知,真切感受到科技创新对社会进步的巨大推动力。”

科技创新,永不停步。据悉,项目组目前已经在以机器学习评价垃圾分类质量领域取得了新的进展。