搜索
  • 首页
  • 快讯
  • 资讯
    • 推荐
    • 财经
    • AI
    • 创新
    • 城市
    • 最新
    • 创投
    • 汽车
    • 科技
    • 专精特新
  • 直播
  • 视频
  • 专题
  • 活动
搜索
寻求报道
我要入驻
城市合作

让大模型“外挂硬盘”,百川智能发布新API系列,企业定制成本大大降低

咏仪·2023-12-21 14:32
如果大模型是AI时代的新计算机,那么搜索增强就是一个“外挂硬盘”
百川智能
A轮北京市2023-04
通用人工智能服务企业
36氪报道 前沿技术
我要联系

自ChatGPT引爆全球AI浪潮以来,AI圈子已经迅速走过了造出了通用大模型的第一道关卡,如今最关键的问题在于——如何让大模型高效地在实际应用场景中落地?

百川智能的最新实践是:用大模型+增强技术,可以大大提升企业应用大模型的效率。

现在,全球大模型领域都在“开卷”长文本,这是目前大模型能否落地更多场景的关键一步。10月,百川就发布发布最新的长窗口模型Baichuan2-192k,意味着能够处理约35万个汉字,是OpenAI旗下GPT-4的14倍,“长文本专家”Anthropic旗下Claude2大模型的4.4倍。

而在12月19日,百川智能宣布正式推出基于搜索增强的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo。

目前,百川智能已经升级了官网模型。企业用户可以在API中上传公司的PDF、Word等多种文本上传以及URL网址,即可体验搜索增强和长窗口加持后的Baichuan2大模型。

给大模型“外挂硬盘”,秒建公司知识库

百川智能认为,大模型是新时代的计算机,就如同中央处理器一样;而上下文窗口可以看做计算机的内存,存储了当下正在处理的文本。互联网实时信息与企业完整知识库,则共同构成大模型时代的硬盘。

而基于搜索增强技术推出的API系列,用百川智能CEO王小川的话来说:

“就像硬盘一样,让大模型可以挂上外部知识库。”

大模型成为AI时代的基础设施底座,已成为行业不少人的共识。不过,大模型的技术探索仍在早期,尽管模型参数变大,但还有许多问题尚待解决——“胡说八道”的幻觉问题,以及“记不住上一句问了什么”的对话窗口问题等等,都极大限制了大模型能够发挥出的效能。

但是,基于大模型+搜索增强这一路线之后,大模型的可用性可以有效提升——想要让大模型记得上一回合讲了什么,不需要通过扩大参数、使用更多算力来重读文本。“长窗口本身越大,它的性能会越低。因此如何用更好的搜索降低长窗口的负担,这个也是长窗口搜索要做好的工作。”王小川表示。

现在,哪怕基于参数没那么大的模型,模型单次获取的文本量级大大提高,并且速度也能大大提升。

Baichuan-192k API效果到底如何?百川智能展示了长文本领域的经典测试“大海捞针”的结果:

“大海捞针”测试(Needle in the Heystack)是由海外知名AI创业者兼开发者Greg Kamradt设计的,业内公认最权威的大模型长文本准确度测试方法。

简单而言,这一测试是将一段信息放在一段长文本中的任意位置,检测大模型的回答准确率如何。

△“大海捞针”压力测试图

 

目前,对于192k token以内的请求,百川智能可以实现100%回答精度。“我们的长窗口能够做到全绿,相当于能完全不遗漏地把192k里的信息全部召回。”王小川表示。

并且,结合搜索系统,Baichuan-2能够获取的原本文本规模提升了两个数量级,达到5000万tokens,相当于35万汉字的规模。

百川智能分别测评了纯向量检索和稀疏检索+向量检索的检索的效果。测试结果显示,稀疏检索+向量检索的方式可以实现95%的回答精度。在文本总量提升大概250倍的情况下,其召回精度可达95%。

△在中文场景下的长文本测试

 

本次测试,百川智能使用中文场景,实验配置如下:

大海(HayStack):博金大模型挑战赛-金融数据集中的80份长金融文档。
针(Needle):2023 年 12 月 16 日,在极客公园创新大会 2024 的现场,王小川进一步分享了大模型的新思考。在王小川看来,大模型带来的新的开发范式下,产品经理的出发点,应该从思考产品市场匹配(PMF),到思考技术与产品的匹配怎么做,即 TPF(Technology Product Fit,技术产品匹配)。
查询问题:王小川认为大模型时代下,产品经理的出发点是什么?

总而言之,这次的发布相当于让大模型的运行速度和精度都再进一步。大模型即使再加长窗口,也能做到数据更新、更快、更准、更全的召回,还能够远远比做行业模型的成本要低。

大模型做定制,不等于项目化

除了新的API系列外,本次发布中,百川也发布了另一项功能:百川搜索增强知识库。使用过程也很简单:企业从私有化部署到云端把自己的知识上传到其中,即可生成一个一个外挂的系统,跟Baichuan2系统对接——相当于每个企业可以定制自己的硬盘,做到即插即用。

API和增强知识库的推出,最直观的落地效果是,模型比原先长窗口处理速度更快,成本更低。

如今的Baichuan-2能够拓展到大量To B场景当中,例如金融、政务、司法、教育等行业的智能客服、知识问答、合规风控、营销顾问等场景。

在发布会现场,百川也展示了金融行业的知识库搜索场景。某银行的知识库总量有6T,共12905个文档,Baichuan2能够海量的知识库可以查找找到文档里的内容。将36万字的文档通过API输入到模型中,就能精确找到答案。

△百川现场展示投研信息提取和分析

 

可以说,大模型+搜索增强的方法,为以后大模型在行业落地提供了一条务实的路径。

企业知识库是现在大模型应用的主流场景。在以前,企业想要建一个企业知识库,需要通过预训练或者微调训练大模型,也需要比较高素质的AI人才。当底层的大模型数据每更新一次,都要重新训练或微调,成本也较为昂贵,且可控性和稳定性也很容易下降。

另外一点是,构建大模型知识库的主流方法是向量检索,但向量数据库应用成本也相对高昂,而向量模型的效果过于依赖训练数据的覆盖。在训练数据未覆盖的领域泛化能力会有明显折扣。用户Prompt和知识库中文档长度的差距,也会给向量检索带来了很大挑战。

针对这些问题,在推出大模型+搜索增强的过程中,百川智能也解决了一些技术难题,比如在通用RAG(检索增强生成)的技术基础上首创了Self-Critique大模型自省技术——以让大模型在输出答案之前“再自检”,给用户筛选出最优质的答案。

最终结果是,将搜索增强知识库和超长上下文窗口结合后,模型“接上外挂”,就可以连接全部企业知识库以及全网信息。可以替代绝大部分的企业个性化微调,解决99%企业知识库的定制化需求——企业要做定制化,成本可以大大降低。

王小川坦承,目前大模型在行业化中落地,客制化(Customized)是无法避免的,但可以通过技术的迭代,不断降低给客户交付的能力。“我们避免项目化,用产品化取代项目化。”他解释。

随着新模型和API系列发布,目前百川智能也正在快速推进商业化落地。百川智能透露,目前多个行业的头部企业已与百川智能达成合作。

👇🏻 扫码加入「智涌AI交流群」👇🏻

欢迎交流

欢迎交流

+1
39

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
登录后参与讨论
提交评论0/1000
你可能也喜欢这些文章
最前线|快手可灵大模型推出图生视频功能
「瑞莱智慧」内测首个AIGC实时检测产品RealBelieve|最前线
2年暴涨9倍!英伟达终成全球市值第一,黄仁勋接受专访:我醒来照常工作
跨界光伏两年,TCL光伏科技户用电站数量超30万户 | 最前线
「东方甄选」披露自营成绩单:半年GMV超36亿元、抖音订单量累计破亿单丨最前线
把户用储能卖到亚非拉,海辰储能在探索一条新路 | 最前线
华为云数据中心:每100万台服务器,每年省10亿度电 | 最前线
最前线|《中国奇谭》系列首部动画电影定档明年暑期,上影集团揭幕“上海电影艺术中心”新地标
机构预警:三季度光伏产品价格或将持续下跌 | 最前线

最新文章推荐

扩招近10000人,PE巨头加速招人 AR爆发前夕,二维扩瞳几何光波导提供近眼显示更优解 景鲲要再造一个百度?生成式AI颠覆搜索为时尚早 “平番”是谁的谎言? 1条视频报价近35万元,短剧公司不拼投流拼做号 张学友、陈奕迅等多位歌手或涉嫌违约?律师:这些“个人身体原因”并非不可抗力 身处BANI时代,你准备如何接招? “愿意降价的房子,都卖掉了!” MANNER高速扩张后,咖啡师“发疯” 英伟达超越苹果市值:AI服务器将超越手机,成为ICT产业最大赛道
咏仪
作者

关注AI、云计算,交流+twiddly0309

最近内容

钉钉正式出海,中国协同办公卷向海外 | 36氪独家
飞书高层调整:总裁张楠卸任,将继续担任飞书顾问 | LongChina50独家
11位AI考生,正在埋头苦写2024年高考作文……

报道的项目

下一篇

36氪独家 | 华为智选车推出独立门店,预计2024年达到800家

用一年的时间,完成理想汽车的门店建设总量。

2023-12-21

热门标签

倾尽天下 江南 并行计算 跨境汇款 国际汇款 王文辉 心电图异常 加班文化 刻板印象 租手机 休谟问题 理性与感性 黄俊钦 金泰 最好的我们 全职高手 雅迪电动车 北京房 足球培训 金立m5 航空航天工程 杨旭 纳斯达克综合指数 整容 奔跑吧 血糖仪 苹果日本 dnf斗鱼 蛇哥 中医推拿
意见反馈
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

PHP网站源码广州百度网站优化南联网站推广方案宝安百度关键词包年推广南澳网页制作坪山网站seo优化南山网站优化排名沙井网站优化塘坑网站推广福永网站建设坪山百度网站优化排名荷坳网络广告推广坪地网站建设民治网站推广工具丹竹头百度爱采购丹竹头百姓网标王观澜英文网站建设南联阿里店铺托管坂田品牌网站设计爱联百度竞价包年推广盐田企业网站改版盐田关键词按天扣费吉祥网站优化按天计费荷坳阿里店铺托管大运网站推广坪山建站惠州网站搭建宝安网站排名优化福田企业网站制作双龙seo惠州网站关键词优化歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化