当前位置: 首页 > 公众号精选 > 架构师社区
[导读]导读:在天猫、淘宝网购过程中,商品的推荐与广告的前端展示是怎样的?两者的底层数据服务又是怎样构建的?今天跟大家讲述面向阿里1688业务的实时数据工程实践。 本次分享主要分为三部分:首先讲解实时数据工程实践的意义;然后介绍中台体系,因为中台的基础

阿里1688实时数据工程实践

导读:在天猫、淘宝网购过程中,商品的推荐与广告的前端展示是怎样的?两者的底层数据服务又是怎样构建的?今天跟大家讲述面向阿里1688业务的 实时数据工程实践。

本次分享主要分为三部分:首先讲解实时数据工程实践的意义;然后介绍中台体系,因为中台的基础非常完善,所以面向业务时,工程实践特别高效、低成本;最后通过实际案例让大家深刻了解实时数据工程。

01 实时数据工程

阿里1688实时数据工程实践

1688是一个电商网站,每天会有千万级的访问流量,百万级的订单流量,每天能有数十亿成交额。

一个网站想要发展,最关注的肯定就是买家数,营收等一些指标;如果涉及到目标,就离不开匹配效率、市场机制、商业化 ( 如广告投放等 )。

支撑这些目标的通常是算法:

 针对匹配效率,有实时个性化搜索,推荐算法的开发;

针对市场机制,有业务需求方的实时调控策略;

 针对商业化,有搜索推荐即广告物料的实时上下架调整。

算法模型的底层就是实时特征工程,分为两部分:

 用户行为数据工程体系。主要作用在场景中,通过捕捉用户的行为信息,构建用户的数据特征体系,呈现更符合客户价值的信息。

 构建业务与货物的实时系统。由原先在搜索推荐中离线计算,进行实时化提速,由原来的 T+1 天改进到现在 1h、1min 甚至秒级的数据计算响应。

实时数据工程所实现的用户行为数据工程体系、业务实时化建设依赖于阿里巴巴非常完善的中台基础体系。

02 中台基础

阿里1688实时数据工程实践

简单介绍下中台基础,主要分为:在线服务体系、实时计算引擎与离线数据同步工具、数据存储。

在线服务体系:

 搜索引擎 HA3,是阿里巴巴搜索团队开发的搜索引擎平台,它为阿里集团包括1688、淘宝、天猫在内的核心业务以及各垂类业务提供搜索服务支持。

 推荐引擎 BE(BasicEngine ),包含搜索 Query 的各种召回 ( 如 item2item,behavior2item ) 及一些简单的数据处理逻辑如合并、关联、过滤、排序等。

 在线打分系统 RTP,在搜索与推荐之上,支持业务中深度模型的在线打分服务。

 igraph 图索引及查询系统,存储用户的行为信息。在实践中,还会用来存储如 kv、kkv 结构的服务化数据。

实时计算引擎与离线数据同步工具:

 阿里内部使用较多的 Blink。大家可以认为是 Flink 的升级版,功能更加完善,也更加强大,甚至已经成为了阿里巴巴实时计算的主流引擎,下面将要讲的案例大都是以 Blink 为基础实现的。

 异构数据源之间的同步工具 DataX。即通过底层的 ODPS ( Open Data Processing Service ) 服务将不同数据源的数据进行同步。

数据存储:

 OPDS 开放数据处理服务,基于阿里飞天分布式平台,支撑 GB/TB/PB 级的数据计算服务。

 Tddl 是分表分库的一个中间件,可以认为是类似于 MySQL 的一种工具,在其上进行封装后,分表分库可以横向纵向的无限扩展。

03 工程实践

下面将面向业务类型,进行案例讲解,一是系统业务数据实时化的案例;二是根据用户行为的实时数据服务。

1. 系统业务数据实时化

任务:因为搜索推荐以及促销活动商品池更新汰换,将导致商品的各种信息发生变化。从原始数据源中的数据实时同步更新到服务引擎中,就显非常有必要。

案例1:商品统计数据实时化

阿里1688实时数据工程实践

要求:商品的成交金额、买家数、其他算法指标在线上发生变化时候,就能在线上的搜索引擎中实时显示出来。

 针对数据准确性不同要求,设计了差异化的解决方案:

卖家或者买家在前端页面展示出来的数据是非常精准的,这个用中间的数据库做转存,然后再进入搜索引擎。

在线打分、商品排序阶段,一些算法的因子可能存在时效性的误差,我们是实时计算算好直接进入搜索引擎,更加高效,更加轻量,延迟更低,并发度可以更多。

 全量+增量互补的方案

上面是实时的解决方案,对于 T+1 级别的数据,要把 T-n->T 天的数据做一个全量的计算,再进到搜索引擎中,因为每天的搜索引擎是做一个全量更新的。

案例2:推荐商品的实时更新汰换

阿里1688实时数据工程实践

背景:在1688网站,每年要举行3次S级的大促,类似天猫淘宝的双11大促,大促会场一直是买家流量的主要承接场景,是大促的主要阵地。

原来的时候,算法是通过离线进行召回的,存在召回能力不足,效果不好的问题。

改进为算法实时召回,并且运营可以配置召回及打分方式,实现大促会场商品的实时更新汰换和算法能力结合,是运营的重要抓手,也对大促会场的匹配效率起到关键作用。

案例3:广告引擎和推荐引擎之间的数据实时同步

阿里1688实时数据工程实践

背景:2018年下半年,推荐商业化:当时广告引擎和推荐引擎是异构的,召回的方式完全不一样,广告走的是搜索的逻辑,根据 Query 词;而推荐根据用户行为、或者冷启动进行召回。

现在将广告的数据同步到推荐引擎中,将千万级别的全量广告商品集进行精品筛选,得到百万级别的精品商品集。使用 Blink batch 将这些数据每5分钟全量更新一次,并按照商品投放计划消息把数据更新给推荐广告引擎。

2. 实时数据服务

阿里1688实时数据工程实践

实时数据服务就是将用户行为数据从埋点收集到最终应用的整个过程,构成实时数据服务的闭环体系。利用用户的历史行为数据,进行加工、计算、孵化,作用到每一个算法需要介入的场景中,比如实时搜索、个性化推荐、会场场景等。

阿里1688实时数据工程实践

首先,通过场景的规范埋点进行用户行为数据的采集,得到原始数据存储 TT 流,这些是阿里日志中台做的工作

其次,将数据通过 Blink 进行打标签,这里是通用标签,跟业务无关。然后,根据业务场景对数据进行多维度的聚合加工,如用户维度、商品维度、场景维度等。最后,建立统一的服务层,对外提供接口,将数据应用到业务场景中。

阿里1688实时数据工程实践

最后搭建的实时数据服务解析如上图所示:

 当用户进入网站后,通过用户标识,用户的点击,收藏,加购,支付的数据将会实时进入到 实时数据服务层。

 用户在浏览商品的时候,会对商品做曝光过滤处理,因为不希望用户每次进入网站都看到相同的东西,而是根据算法将商品展示序列进行优化。

 每个商品,根据商品的 id 可以在后台得到商品实时的 CTR/CVR 数据,由中台基础的 Blink 提供实时计算。

 根据商品 id,可以实时查询某种商品的成交额,支持批量查询。

 针对于新形态的挑货与直播,通过 feeds id 可以得到 feeds 的实时 CTR/CVR。

 在大促会场中,可以通过场景标识+分桶标识,快速得到对应场景的一些报表数据 ( 曝光、点击、成交、相应的 uv 等 )。

 用户标识+场景标识,根据得到的用户在指定场景下的统计数据,可用于实时化的个性化分流、推荐等。

 场景的标识,得到场景的总体统计,可以用于流量分配机制的完善。

特别推荐一个分享架构+算法的优质内容,还没关注的小伙伴,可以长按关注一下:

阿里1688实时数据工程实践

长按订阅更多精彩▼

阿里1688实时数据工程实践

如有收获,点个在看,诚挚感谢

免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读
[通信先锋]

阿维塔、赛力斯已入股!华为引望可能成“中国博世”

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为
[美通社全球TMT]

Trianz与AWS达成战略合作协议,彻底改变云采用和管理方式

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化
[美通社全球TMT]

人工智能驱动工具SODA V将颠覆汽车市场,使汽车开发时间和成本降低90%

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP
[美通社全球TMT]

从容应对未知风险----解密亚马逊云科技的韧性之道

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP
[通信先锋]

中国游戏市场开始复苏!腾讯、网易等巨头缩减在日本投资

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU
[通信先锋]

独立自主!华为董事:致力打造不依赖西方的技术

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体
[通信先锋]

华为张平安:数字世界话语权最终由生态繁荣决定!

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信
[美通社全球TMT]

中国通信服务公布2024年中期业绩

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济
[美通社全球TMT]

NVI技术创新联盟成立!自主生态将带动产业链高速发展

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP
[美通社全球TMT]

软通动力与长三角投资达成战略合作 共谋数字生态新发展

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术

架构师社区

1739 篇文章

关注

发布文章

厂商专栏

  • 厂商文章

    厂商文章

    5385篇文章
  • 贸泽电子

    贸泽电子

    830篇文章
  • 意法半导体

    意法半导体

    757篇文章
  • ADI

    ADI

    746篇文章
  • 英飞凌

    英飞凌

    496篇文章
  • 是德科技

    是德科技

    347篇文章

热门文章

  • 为什么一打开相机就杀后台?内存和存储为何重要?
  • 人工智能、5G以及物联网,数字化转型的关键动力
  • 打造工业级产品解决方案为何如此重要
  • 中国实现芯片制造关键技术首次突破:一年内投入应用
  • 联发科天玑9400前瞻:性能+能效双重大幅提升
  • 雷军晒20年前UC老照片:曾投资UC赚了1000倍
  • 《财富》首度发布中国科技50强:华为无悬念居首!小米第六
  • 被博通收购后:VMware涨价高达1000%!
  • 美国强硬拦截24块NVIDIA A100 GPU!坚称会流向中国
  • 院士郑纬民:国产AI芯片如果生态改善 哪怕60%性能也有人用
  • ASML:中国厂商生产“落后”制程芯片就行 世界需要
  • 英特尔AMD英伟达退出无妨:仍有超过一半美国公司继续在俄罗斯运营
  • 无可奈何:中国公司开始大量订购NVIDIA H20芯片

编辑精选

更多

论坛活动

  • 【现金奖】 “智慧宝库,你传我奖” 资料征集大赛
    【现金奖】 “智慧宝库,你传我奖” 资料征集大赛
  • 解锁你的汽车电子“芯”技能
更多

论坛热帖

  • 十大技术帖
  • 十大生活帖
  • 串口接收中断一直进不去,但是可以printf发送数据
  • 请问下CW32F030有没有软件复位功能
  • stm32作为主机的spi通信
  • 数字地和模拟地
  • 求助咨询CW32F030串口下载事宜
  • 这是啥芯片?有用过的吗?
  • 英飞凌率先开发全球首项300mm氮化镓功率半导体技术,推动行业变革
  • nsing是不是就是国民技术
  • 关于芯片CYUSB3014设计开发资料问题
  • MTB的Terminal页面出现乱码
  • 论学历的重要性:物理学硕士拟被聘为南航苏州附中勤杂工
  • BB机被曝引起的事情的走向,越来越可怕
  • 英特尔居然被收购了
  • 房贷注定了穷人富不起来:董明珠称普通人最大困难是搞很多房贷
  • 日夜均分——秋分
  • 这叫什么事
  • 路边的早餐再也不能随意吃了,有没有想过会致病
  • 读书为了赚钱,还是赚钱为了读书?
  • 记一次面试
  • 意难平——还记得错过的那个她(或他)吗

技术子站

更多

资料下载

  • pcb参数计算神器 Saturn_PCB_Toolkit
  • STM32F4XX中文版本参考手册
  • 三菱PLC低层代码
  • 数字信号处理及应用
  • PCB板EMC整改方法
  • SH367309中颖单片机专用动力电池保护板全套资料
  • Altium designer电路设计各层介绍
  • 管径流量计算公式
  • 海信LED32K16液晶电视(4287板)电源板电路图
  • 迟滞比较器
更多

技术学院

  • 超全!C语言在嵌入式系统编程时的注意事项
  • 盘点如何解决芯片设计中混合信号设计的难点
  • 一文详解基本放大电路应该如何分析
  • 超强梳理!55条模电数电必备知识
  • 一文教你如何选择连接器
  • 总结电子元器件基础知识
  • 详解数字示波器和模拟示波器的差异
  • 揭秘限幅电路利用二极管特性
关闭
关闭

PHP网站源码宿迁网站优化价格表莆田快速优化网站莱芜营销型网站优化公司林州网站如何做优化360网站排名优化消防门户如何优化网站厦门网站建设优化费用情况新乡百度网站优化哪家正规三门峡营销型网站优化公司永城专业网站关键词优化价格温岭百度网站优化东营优化网站东坑家具网站优化是怎么做的专业网站优化联系电话安徽网站推广优化价格兰州快速优化网站托管济源郴州企业网站优化方案商丘网站搜索引擎优化排名价格盐城东台seo网站优化长春服务好的网站推广优化如何优化网站兑云速捷加选外贸网站优化课程网站网站优化企业网站优化报价承诺守信陕西关键词网站优化南充优化网站咨询嘉兴企业网站seo优化方法如何优化网站咨询金苹果光明网站自动优化怎么优化网站信息歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化