我们正处于(yú)大数据和数字化转型的时代。数(shù)据无处不在(zài),运用(yòng)数据驱动的思想和策略在实践中逐渐成为共识,数据的价值已在(zài)科学研究和工商业的(de)不同领(lǐng)域得到充(chōng)分展现。然而,如果无法从(cóng)数据中提取出(chū)知识(shí)和信息(xī)并(bìng)加以有(yǒu)效(xiào)利用,数据(jù)本(běn)身(shēn)并不(bú)能驱动和引领(lǐng)数字(zì)化转型取得成(chéng)功。如何让数据发挥它最大的价值?“数据智能”(Data Intelligence) 应运而生。
portant;" />
然而,技术的不(bú)断发展终究要服务于(yú)现实(shí)生(shēng)活,海量数据背后那些(xiē)未(wèi)被挖掘的价值,需要企业不断(duàn)挖掘(jué)并乐于(yú)分享才(cái)能真正促进行业转(zhuǎn)型,才(cái)能(néng)赋能各种应用(yòng)场景。日前,由MobTech MobAI团队基于(yú)Spark自研的(de)因子分(fèn)解机(Factorization Machine,简称(chēng)FM)模型已得到Spark merge,Spark使用者只要更新Spark后(hòu),即可(kě)使(shǐ)用该模型(xíng)。
portant;" />
Apache Spark是一个互联网行业普遍使用的开源大数据分布式编程框架,借(jiè)助(zhù)Catalyst、新的混排方法(fǎ)、新的(de)网络模块等,获得了超(chāo)越MapReduce框架的性(xìng)能(néng),也提供了丰富的API接口(kǒu)。截至2015年年(nián)底,Spark是所有大数据项目中最活跃的开源项目。如今,许多公司使(shǐ)用Spark,包括亚(yà)马(mǎ)逊、Autodesk、Groupon、Tripadsvisor,百度、阿里巴巴和腾讯(xùn)、微软等国内外一流互联网公司(sī)都在(zài)使用。
而FM模型自从2010年(nián)被提出后(hòu),由于易于整合交叉特征、能够有效(xiào)解决高维数(shù)据(jù)特(tè)征组合的(de)稀疏问题且具(jù)有(yǒu)较高的(de)预测精(jīng)度和计算效率,在推荐系(xì)统及广告CTR预(yù)估等领域得到了大规模使用(yòng),国内很(hěn)多大厂(chǎng)(如美团(tuán)、头条等)都用(yòng)它来做推荐(jiàn)及CTR预估。在数据稀疏的情况(如CTR预测)下(xià),FM模型展现出非(fēi)常高的预测质量,被提出(chū)后迅速成为学术界和行业研究和应(yīng)用(yòng)的(de)热点。
比如在某银行(háng)短信投放的项(xiàng)目(mù)中,一(yī)开始使(shǐ)用对于计算(suàn)广告(gào)等(děng)有天然优(yōu)势的逻辑(jí)回归模型,点击率(lǜ)为1.18%。但是,逻辑回归(guī)虽然适合用(yòng)来学习需(xū)要大(dà)规模训练的样(yàng)本和(hé)特征,同时也有着不容忽视的(de)缺点:1.模型表达能力弱,需(xū)要大量的(de)特(tè)征组(zǔ)合提(tí)高特征的表(biǎo)达;2.模型简单(dān),容(róng)易欠拟合。所(suǒ)以在(zài)评估(gū)后,MobTech选择(zé)了使用FM模型,成功(gōng)帮助用户的(de)点击率增长至3.62%,带来了更多转化。
portant;" />
作为(wéi)全(quán)球领先的数据智能科(kē)技平台,MobTech结(jié)合大规(guī)模(mó)数据处理、数(shù)据挖掘、机器学习、可视化等多种技术,从(cóng)数据中提炼、发掘、获(huò)取有揭示性(xìng)和可操作性的信息,为企业和品(pǐn)牌在基于(yú)数据(jù)制定(dìng)决策或执行任务(wù)时提供有效的智能支持(chí)。自(zì)研FM模型(xíng)并得到Spark merge是MobTech助力(lì)各(gè)企(qǐ)业探求(qiú)数据空间中未知世界,在不(bú)同领域里寻找巨大机会的见证(zhèng),也彰显(xiǎn)了MobTech在推动行业重(chóng)塑商业分析和商业智(zhì)能领域的决心。
portant;" />
新一(yī)轮技术革命带来的商业演(yǎn)进把我们(men)带进“ABC”时代,即人(rén)工智能(AI)、大数据(Big Data)和云计算(suàn)(Cloud Computing)。而根(gēn)据Gartner的调研,一种新的
“增强(qiáng)分析”的分析模式正(zhèng)在颠覆(fù)旧有方式,预计在几(jǐ)年内(nèi)将成(chéng)为商业智能(néng)系统(tǒng)采购(gòu)的主导(dǎo)驱动力。这(zhè)种(zhǒng)“增强分析(xī)”模式正是由数据智能(néng)技术赋能,提供了(le)自然语言查(chá)询和(hé)叙述、增强的数据准备(bèi)、自(zì)动的高级分析、基于可视化的数(shù)据探索等多(duō)种核心能力。
portant;" />
未来,MobTech将会潜心数据智能(néng)研究,让产品(pǐn)更加契合当今大(dà)数(shù)据时代各(gè)领域、各行业从数据中挖(wā)掘、实(shí)现价值(zhí),进行数字(zì)化(huà)转型的迫切需要。并不断将成(chéng)果与众(zhòng)企(qǐ)业分(fèn)享,一同(tóng)实现(xiàn)数据智能在更多领域(yù)的落地和发展(zhǎn),不断挑战新(xīn)应(yīng)用和(hé)新场景(jǐng),进(jìn)一步激发和驱动数字智能(néng)研究保(bǎo)持强劲的(de)发(fā)展势头(tóu),迈向更高的层次。