[ChatGPT出题，百度将交出怎样的答卷？]-麦涛视界-[麦涛网]

ChatGPT出题，百度将交出怎样的答卷？

责任编辑：沙克时间：2023-02-28 来源：转载于：中国电子报、电子信息产业网

责任编辑：沙克
时间：2023-02-28 来源：转载于：中国电子报、电子信息产业网

分类：学术交流

浏览量: 519

面对全球爆红的ChatGPT，百度闪电应战。2月7日，百度官宣将在今年3月推出类ChatGPT项目——“文心一言”。一天后，百度CEO李彦宏将“引领搜索体验的代际变革”列为2023年第一季度OKR关键任务。

GhatGPT成为火爆全球的国民级应用后，谁能率先推出中国版的GhatGPT，成为业界关注的焦点。百度看似匆匆迎战，实则已经为此磨剑十年。百度希望以GhatGPT为起点，找到新的增长曲线。而百度AI的“十年一舞”也将在“文心一言”正式推出之时交出答卷。

百度AI战略的“新闸口”？

很多人将ChatGPT称为人工智能领域的里程碑和分水岭。

自2022年11月底正式推出后，ChatGPT在全球范围内疯狂“圈粉”，上线仅5天用户数量便突破100万，上线两个月月活数超过1亿。作为AI自然语言生成领域的颠覆性产品，这个会聊天、懂代码、通翻译的工具除了好用之外，还为许多行业提供了巨大的想象空间和潜在的创业价值。

研发出ChatGPT的OpenAI已经给谷歌、百度这些利润丰厚的搜索帝国拉响了“红色警报”。

一位接近百度的业内人士告诉《中国电子报》记者，在百度三大业务支柱——搜索、云服务、自动驾驶中，搜索引擎业务是“铁饭碗”，其带来的广告收入为公司盈利带来了超过50%的贡献，是填补另外两大支柱业务巨额支出的重要经济来源。

近几年，搜索时代退潮、移动互联网红利见顶，百度的业务搜索和信息流增量等核心业务已经触碰到“天花板”。前有字节跳动层层阻击，后有京东、拼多多、美团等互联网“后浪”步步紧逼，百度增长受到双向挤压。尽管资本市场依旧会将百度、阿里巴巴、腾讯并称为BAT，但百度企业生存艰难已是不争的事实。

ChatGPT的横空出世，让多年未见战争的搜索市场又见硝烟，百度必须做出强有力反击，捍卫自己的基本盘。这也是ChatGPT爆红之火，李彦宏迅速做出回应的原因所在。不过在外界看来，百度在以 ChatGPT为标杆重新评估搜索业务的同时，或许也为其未来最为倚重的AI战略找到了“新闸口”。

“All in AI”，是百度过去10年最重要的战略。以2013年建立美国研究院为起点，百度在AI方向上的探索长达10年。10年来，百度的研发投入累计超过1000亿元，其中核心研发的投入占比连续多个季度超过了20%，这也让百度成为BAT中最早进行人工智能转型和投入最多的互联网厂商，使百度与谷歌、微软、亚马逊并列全球四大AI巨头。

日前，百度官宣，其开发的类似ChatGPT的项目“文心一言”（ERNIE Bot）将在3月份完成内测，面向公众开放，成为第一个跟进ChatGPT相关项目的中国厂商。据透露，“文心一言”正在做上线前的冲刺，但按照谷歌和微软对ChatGPT类应用投入紧追不舍的节奏，“文心一言”开放内测有可能提前。官宣第二日，李彦宏曝光了2023年第一季度OKR关键任务——“引领搜索体验的代际变革”。有业内人士推测认为，“文心一言”将首先供给百度自家的搜索引擎，“搜索+生成”或将成为该项目应用落地的第一个爆点。

事实上，对于ChatGPT类生成式AI工具，百度“蓄谋已久”。去年9月，李彦宏公开表示，随着发展，人工智能在“技术层面和商业应用层面”，都有方向性改变。近期流出的一份百度内部讲话中，李彦宏再次强调：“技术已经到了临界点，类似ChatGPT这样的技术如何运用在搜索场景上，未来一年，在这方面我们非常有机会”。

接近百度的相关人士向记者透露，百度搜索早就接入了文心相关技术。2019年3月，百度已经开发了文心ERNIE 1.0系统；2020年，百度搜索开始应用“文心大模型”技术，逐步优化搜索的相关性、深度问答和内容理解等。

对于百度来说，推出“文心一言”的用意或首先在于“防御”，捍卫自己的搜索帝国。前几日微软将ChatGPT集成到自家Edge浏览器和必应搜索后，必应搜索应用程序和Edge浏览器在App Store排行榜上的排名迅速蹿升，应用程序的全球下载量在一夜之间猛增10倍。全球搜索市场占有率第一的谷歌公司也紧随其后宣布将推出AI对话式机器人“Bard”，并将此功能整合到自家的搜索引擎中，以挽回已经被动摇的市场。

中国人民大学应用经济学院教授潘伟告诉《中国电子报》记者，像百度这类有技术、有产品的公司，最怕的是丢失用户和流量。如果行业中有同类项目“先发制人”且快速聚拢了流量，那么留给百度的窗口期会很短。这种情况下，它采取的往往是跟进策略，在用户的使用中不断完善自己的产品，再考虑能否超越的问题。

超越ChatGPT并非易事

ChatGPT是为数不多以技术为核心的互联网现象级产品，其成功要素有几点。一是ChatGPT有强大的技术底座“InstructGPT”模型。在此前三代的演进中，模型参数和数据规模越做越大，ChatGPT又引入了强化学习机制，添加人工标注的数据，通过人类的反馈，有针对性地进行优化。二是ChatGPT在数据质量和多样性上非常讲究。OpenAI雇佣了一个数十人的数据团队，专门针对数据多样性、标注体系进行精巧的设计，让数据发挥出了强大的作用。三是在回复速度上，ChatGPT也领先一截。

记者此前就“百度要推出中国版ChatGPT会和OpenAI产生竞争关系吗？”向ChatGPT提问。ChatGPT给出了“肯定”的回答：“如果百度真的推出了一个中国版的ChatGPT，那么它很可能与OpenAI产生竞争关系。两家公司都试图通过提供优质的人工智能模型和技术服务来吸引客户和支持者，因此在市场上可能会出现竞争情况，影响两家公司的市场份额和营收。”

想要超越ChatGPT并不容易。最近，谷歌刚刚推出Bard就遭遇“翻车”，因答错问题市值蒸发了1000亿美元，无非是因为用户对ChatGPT类竞品的期望值和关注度过高。谷歌如此，百度也不例外。

当被问及谁能推出抗衡中国版ChatGPT，一位业内专家告诉《中国电子报》记者，他首先想到的就是百度。“BAT各有各的优势，比如百度的技术、阿里的运营、腾讯的产品。从这个角度来看，ChatGPT作为一个以AI技术为核心的产品，很适合长于技术、弱于运营的百度。”

“文心一言”背后的文心大模型（ERNIE）已经历三次迭代，训练数据超过千亿，这为百度比肩ChatGPT奠定了一定基础。虽然百度对文心大模型相关参数信息披露不多，但《Technology Review》两年前的一份报告提到，百度在通用语言和理解评估竞赛中击败了微软和谷歌。根据百度此前发表的论文，文心大模型3.0Titan包含2600亿个参数（ChatGPT使用1750亿参数的GPT3.5模型），是当时中国最大的密集预训模型，在68个NLP数据集上的性能已优于现阶段最先进的语言模型，包括ChatGPT所应用的GPT3.5模型。

百度打造的“文心大模型家族”，已经形成“模型层+工具与平台层+产品与社区层”的整体布局。2022年11月底，百度发布11个大模型和基于文心大模型的2大产品，即AI作画产品“文心一格”和产业级搜索系统“文心百中”，如今已经在不同领域成功“试水”，比如“补全”《富春山居图》、数字人度晓晓AI画作卖出17万元等。

虽然一些人工智能资深人士认为，在类ChatGPT技术上，中美基本持平，但华为诺亚方舟实验室语音语义首席科学家刘群坦言，中国在技术上还是有差距的。其中一个是基础模型本身的差距，虽然我们训练了很多万亿模型或者是几千亿的模型，但训练的充分程度，是远远不够的。“我估计到现在为止，没有哪个模型能吃GPT那么多数据。”刘群说。

“虽然我国已经涌现一批大模型，但均是从谷歌提出的Transformer等基础模型衍生而来，当前大模型底层技术、基础架构均由国外头部企业掌握，且部分模型不开源仅提供接口服务，我国技术存在‘卡脖子’隐患。”中国信息通信研究院云与大数据研究所所长何宝宏对《中国电子报》记者表示。

在全球科技创新产业专家、海银资本创始合伙人王煜全看来，ChatGPT类项目中国很多头部企业也都在做，但更多的是放在后台做，老百姓无法参与。这样一来，“藏在深闺”的高科技到最后反而可能落伍。如今，基于ChatGPT的创业慢慢都已经成规模了，中国的AI头部企业已经错过了第一波。

或将成为新的增长曲线

“我们有这么酷的技术，那我们能不能把它变成人人需要的产品？”李彦宏此前表示，“这一步其实才是最难的，也是最伟大、最能够产生影响力的。”此前，谷歌AlphaGo这类AI人机交互技术在围棋游戏上确实达到了人类达不到的高度，但它的泛化能力有限，其商业前景则远不如ChatGPT。

王煜全指出：“用户在这个时代需要的永远不是产品而是服务，需要的是规模化的服务，因为有人工智能，企业的规模化服务能力能够做到个性化，用‘我’的能力来解决‘你’的需求。”

目前，ChatGPT尚不支持中国用户注册，即使谷歌或其他AI国际大厂下场，短时间内也不太可能为中国提供专属内容。此外，中文的多义性有天然的高门槛，ChatGPT这类产品背后是整个互联网庞大的语料库，对于国内平台来说自然无法避免合规性的问题。因此，除了自然地理解与回答用户的各种刁钻问题，中国版ChatGPT也需要比国外同类产品更严格的审核机制，甚至在早期可能还需要人工审核。

这就意味着，填补ChatGPT在国内市场形成的天然空缺，百度有很大机会。专家告诉记者，百度同时拥有“文心一言”技术和搜索市场优势，相当于中国的“OpenAI+谷歌”。

相关研究报告显示，截至目前，百度搜索引擎的用户数已突破10亿，是中国最大的搜索引擎。今年1月的百度Create AI开发者大会上，百度搜索杰出架构师辜斯缪介绍，百度搜索2023年最重要的工作是把整个检索系统变成“检索+生成”双模系统。这就意味着，对于百度，生成式AI和搜索引擎将相互叠加，而不是替代。

“‘检索+生成’双模系统最终提供的服务质量会远高于现在待机下的搜索服务质量。对比原来单元对话式的搜索模式，即搜索一个问题得到一个结果，未来的搜索模式可能变成多轮交互形式，但这跟对话式的多轮不一样，它不追求聊天，而是让用户可以更高效地向搜索引擎提出需求，同时让搜索迭代和调整适应用户需求。比如搜索一张图片，再用语言告诉搜索引擎怎么修改这张图片，最后产生一个真正定制化的答案。”辜斯缪说。

ChatGPT类工具带来的庞大算力需求无疑需要云的支撑。在这方面，百度同样具有优势。AI和云正巧是百度两大业务支柱。根据IDC的报告，百度智能云在AI服务的维度在中国排名第一。

百度云一直是百度AI技术的“收款码”。比如在制造业、能源、交通、政务这几个快速增长的垂直市场，百度智能云可以直接产生云收入。并且，智能云这一块利润率也在上升，在扩大运营规模的同时，从低利润率的定制项目里转移推动标准化解决方案，提高经营利润率。

据百度方面介绍，其在人工智能四层架构（底层芯片、深度学习框架、大模型以及上层应用），有全栈的布局。在基础架构层，百度自研了昆仑芯及太行DPU等AI算力芯片；在应用平台层，整合了百度AI飞桨深度学习框架和百度文心大模型后，能够实现从数据存储到AI模型训练、生产、部署、测试的全链路、批量化生产。

基于这样的架构，百度的AI应用开发的模式不再是手工作坊式的“一项目一训练”，而是更像流水线工厂——AI底层技术被抽象出来，形成通用化、模块化的平台套件，百度只需要按照实际业务需求“搭积木”。

百度失去了移动互联网的十年，寄希望于AI赢得未来的十年。ChatGPT是百度又一个新起点，若抓住这次机会，或让百度找到新的增长曲线。

来源：转载于：中国电子报、电子信息产业网

点赞人：沙克