本篇文章1715字,读完约4分钟

近年来,深度学习在非结构化领域(如CV和NLP)显示出强大的优势,突破最高水平的算法层出不穷。结构化和非结构化领域的深度学习之间的巨大反差已经成为一个热门话题。自从以XGBoost和LightGBM为代表的高性能集成树模型培训框架问世以来,深度学习从未超过结构化领域的支持作用。到目前为止,传统的机器学习算法仍然是Kaggle结构化数据竞赛的主要赢家。

深度表:将深度学习的力量注入结构化数据

神经网络强大的表示学习能力真的不能在结构化数据上显示它的能力吗?最近,中国领先的数据科学平台制造商九章纪昀发布的开源项目DeepTables正在打破这一局面。深度表已经过大量测试的验证。在使用相同的数据训练模型的情况下,DT在超过70%的测试数据集上超过了XGBoost和LightGBM,DT团队将在以后发布详细的测试报告。

深度表:将深度学习的力量注入结构化数据

实际上,近年来,一些结构细分领域开始出现深度学习。在点击率预测和推荐系统中,神经网络算法利用其在高维稀疏特征中的高级表示学习能力,逐渐超越了传统的机器学习算法。

从2015年谷歌的广域深度网络开始,深度与交叉、PNN、深度调频和xDeepFM等模式不断刷新公共数据集的记录。研究人员还试图将循环冗余和自然语言处理技术引入结构化领域。

2019年,北京大学的研究团队提出了AutoInt网络,该网络应用了BERT中著名的多头注意思想,有效地提高了结构化数据的自动特征生成和提取的效率,在一定程度上解决了深度学习中缺乏解释的问题。

华为诺亚实验室提出的FGCNN创新性地提出了重组层,在使用卷积神经网络的同时进一步重组局部特征组合,有效避免了CNN过分关注局部特征交互的缺点。在华为苹果商店的推荐系统中,FGCNN大大提高了原有算法的性能。

上述成就足以让行业重拾对结构化数据深度学习的信心。然而,目前,这些成果主要在少数互联网巨头企业中发挥作用,它们只在大多数企业和数据科学家看来是美丽的。如果他们想应用到实际的建模工作中,他们将面临巨大的代价。

深度表:将深度学习的力量注入结构化数据

1)这些模型中的大多数都是纸面上的。虽然有些论文提供了验证模型的源代码,但如果他们想将这些源代码应用到实际业务中,转换这些代码并不困难。

2)结构化数据和非结构化数据最明显的区别在于,在结构化领域中,每个数据集的语义和数值的物理意义是不同的。同一模型在不同数据集上的性能不时变化,并且经常需要同时评估各种模型以找到最优解,这进一步增加了第一点中提到的工程成本。

深度表:将深度学习的力量注入结构化数据

3)上述模型大多侧重于高维稀疏类别特征的学习能力,而对连续数值特征关注有限。这部分正是GBM模型的杀手,所以当遇到具有连续特征的数据集时,这些模型通常是不令人满意的。

纪昀九章的R&D团队基于上述痛点和长期服务金融业积累的经验,开发并开通了深桌深度学习工具包。目前,后端计算框架支持张量流2.0或更高版本。

DT非常容易使用。它只需5行代码就可以完成对任何数据集的建模,并且无需任何预处理和处理就可以对数据进行建模。DT可以提供卓越的开箱即用性能,这很难通过严重依赖手动特征工程的传统机器学习算法来实现。

此外,DT有一个非常开放的架构设计。DT从近年来最佳研究成果的关键网络架构中提取一组神经网络组件(网络)。这些组件可以任意组合到一个新的网络体系结构中,这样可以很容易地在不同的数据集上探索最佳的网络组合。

同时,DT支持插件扩展模式,用户可以根据DT接口开发自己的组件,并与内置组件集成,形成新的模型。在DT的帮助下,耗时数周甚至上个月的工作可以在几小时甚至几分钟内完成。

DT仍处于相对早期的阶段,刚刚发布了0.1.9。DT的下一个计划是打开神经网络体系结构搜索引擎,该引擎使用人工智能算法在不同的数据集上自动搜索最佳网络体系结构,从而实现真正智能的AutoDL。

纪昀九章一直信奉开源,其分布式机器学习平台APS以其开放的技术架构和开源生态,受到了大多数企业客户的青睐。久张赟极大地受益于开源社区,同时继续回馈开源社区。

目前DT团队人才匮乏,欢迎对AutoML和AutoDL感兴趣的各类人才加入我们,为DT团队注入强大的力量。感兴趣的学生可以直接向面试小组组长提交简历。广阔的世界充满希望。(照片由纪昀九章提供)

编辑:张洋

标题:深度表:将深度学习的力量注入结构化数据

地址:http://www.71vw.com/zlxw/1880.html