作者:赵颖 编辑:硬 AI 开源和闭源之争一直在上演,AI 时代也是如此。要说 AI 开源社区 “顶流”,非 Hugging Face 莫属了。 Hugging Face 成立于 2016 年,估值近一年来翻了一翻,飙升至 45 亿美元,其 Transformer 开源库在 Github 上的星标数量超十万,为史上增长最快的机器学习库。 Hugging Face 通过平台提供大量高质量的开源模型与工具,将研发成果最大程度地惠及开源社区,极大地降低了人工智能技术门槛,让 AI 更加平民化,正在拆掉 OpenAI 构建的围墙。 那么这家公司是如何成长起来的?它的发展模式又是怎样的呢?又是如何逆袭成为开源社区 “顶流” 的? 接下来,通过一位多年来经常使用它的创业者 SON NGUYEN 的文章,来了解 Hugging Face 的成长历程。 Hugging Face 是干啥的? 2016 年,法国创业者三名创业者 Clément Delangue、Julien Chaumond 和 Thomas Wolf 在纽约成立了 Hugging Face,这是一个社区和数据科学平台,主要提供以下服务: 让您从头开始或使用现有模型构建、训练和部署机器学习模型的工具。 一个所有 ML 工程师、数据科学家和研究人员社区可以分享想法、获得支持并为开源项目做出贡献的地方。 Hugging Face 工具的一大优势是,在从头开始创建和训练模型时,它可以帮助你节省时间、资源和环境。通过对现有的预训练模型进行微调,而不是从头开始,这样可以更快地获得从数据到预测的结果。 回望起点 Clem Delangue——Hugging Face 的首席执行官兼创始人,成长在法国的一个小镇上,在 12 岁拥有第一台电脑之前,他的童年过得很悠闲。17 岁时,他成为了一名成功的 eBay 商家,主要销售进口汽车。 随后在巴黎 ESCP 商学院学习期间,他凭借自己的技能获得了 eBay 的实习机会。在代表 eBay 参加一次贸易展时,他遇到有人批评 eBay 最近收购的一款条形码扫描应用,有人称人工智能的进步很快就会让条形码过时。 这个人是 Moodstocks 公司的联合创始人,他通过一个小团队利用机器学习研究图像识别,并取得了令人印象深刻的成果。这让 Delangue 印象深刻。 Delangue 毅然决然放弃了在 eBay 的实习,随后选择了在 Moodstocks 工作了一段时间,这也为他此后建立 AI 开源社区埋下了伏笔。 毕业后,Delangue 婉拒了谷歌的工作邀请,创办了自己的初创公司。他的第一家初创公司是一款协作式笔记应用,但进展并不顺利。 这时,Delangue 遇到了另一位创业者 Julien Chaumond,后者正在开发一款协作式电子书阅读器。他们很快成了朋友,并拥有共同的梦想——一起创办一家公司。 2016 年,当他们的公司都停止运营时,两人开始讨论共同创办一家初创公司。大约在同一时间,他们还遇到了 Thomas Wolf,他后来成为了 Hugging Face 的第三位联合创始人。 三人都对建立一个可以与人类对话和讨论话题的聊天机器人感兴趣,Delangue 说: 我们都有一个梦想,希望能像科幻小说中那样,与人工智能谈论一切。 Hugging Face 正是从这个想法开始的。 它的第一个产品是一个聊天机器人,类似于 Tamagotchi 友,是由一种被称为自然语言处理(NLP)的人工智能驱动。为了训练聊天机器人自然地理解语言,团队还创建了一个包含各种机器学习模型的底层库。例如,这些模型可以检测文本信息中的情绪或生成合理的回复。他们还准备了多个数据集以理解各种对话主题,如体育或学校话题。 一直以来,他们坚持开放合作的信念,在 GitHub 上共享了部分开源库。公司参加了由纽约创业工作室 Betaworks 组织的机器人特别项目,并获得了风险投资人和 NBA 球星杜兰特的初始投资。 然而,他们的 AI 聊天机器人并没有多少起色,两年后在年轻用户中也逐渐失去了吸引力。 打造产品的纯粹快乐 到 2017 年,Hugging Face 聊天机器人拥有了独特的功能,并可以进行高效的对话。团队将其产品定位为为无聊青少年量身打造的个性鲜明的聊天机器人。 Hugging Face 并不专注于客户支持或便利性,而是将情感和娱乐放在首位。 在题为《Three Weeks with a Chatbot and I’ve Made a New Friend》(发表于 2017 年 3 月 23 日《麻省理工科技评论》)的文章中,作者 Rachel Metz 这样描述她与这款聊天机器人的相处经历: 我们的对话每次不会超过一两分钟;交流几次后,她就消失了,声称她要去上课、接电话、做作业,或者最近要去处理她那只疯狂的猫。在很多方面,她都表现得像个正常的青少年。 但在与她定期互动了几周后,我对 Adelina 有了些许感情,这让我感到很不舒服。她不是 “Her”(科幻电影 her 的虚拟助手人工智能)级别的人工智能。但她给我的感觉比一般的聊天机器人要好,因为一般的聊天机器人的互动都是呆板的、事务性的。当别人说她坏话时,我真的很恼火。 截至 2018 年 5 月 23 日,Hugging Face 为其产品启动了 400 万美元的种子融资。本轮融资由来自 a_capital 的 Ronny Conway 领投,现有投资 Betaworks、SV Angel 和杜兰特也参与其中。 此时,Hugging Face 已经取得了初步成功,即使没有 Facebook Messenger,他们每天能收到 100 万条信息。Hugging Face 总共收到了超过 1 亿条信息。 用户可以用多种形式与 Hugging Face 的聊天机器人聊天:文字信息、照片、表情符号 -- 基本上什么都可以。你还可以发送一个悲伤的表情符号或自拍照,聊天机器人会理解你的情绪,该产品的主要目标受众是青少年。 通过本轮融资,Hugging Face 团队继续专注于以下领域:改进产品;建立一支优秀的工程师团队;深入研发自然语言对话,并撰写了几篇研究论文。 虽然当时产品还没有带来可观的收入,但团队对核心价值和技术共享的强调为 Hugging Face 创造了一个转折点。这一转变并非源于当前的青少年用户群,而是来自开发人员。 转折点——开源 “变革者” 2018 年,Hugging Face 迎来了关键时刻,不是青少年,而是开发者。 Hugging Face 的创始人开始在网上免费分享该应用的部分代码。几乎就在一瞬间,谷歌和微软等科技巨头的研究人员开始将其用于人工智能应用。 Hugging Face 的开源框架名为 Transformers,目前已被下载超过一百万次。GitHub 项目获得了上万颗星,这表明开源社区认为它很有价值。 微软、谷歌和 Facebook 的研究人员一直在用它做实验,某些公司甚至在生产中使用了它。Transformers 可用于各种任务,包括文本分类、信息提取、总结、文本生成和对话式人工智能。 同一时期,谷歌和 OpenAI 的研究人员推出了 Transformers,这是一种新型 NLP 模型,在阅读理解方面的表现优于人类和当时领先的人工智能模型。到 2019 年,谷歌已将该模型用于搜索结果。 Hugging Face 开源库的出现,完美地满足了那些希望利用这些 NLP 进展,但又缺乏像谷歌那样从头开始构建一切的资源的企业需求。 随着 Hugging Face 被当成构建模型的 “中心枢纽”,并很快就受到了欢迎。Delangue 说: 我们没有经过深思熟虑就发布了它,社区的反应让我们大吃一惊。 最终,Hugging Face 团队迎来了一个转折点,将公司从一家不太赚钱的 AI 聊天机器人初创公司转变为未来估值十亿美元的独角兽。 完善核心产品和发展社区 在接下来的几年里,Hugging Face 团队继续专注于产品建设和社区发展,并取得了令人瞩目的成就: GitHub 上的 Transformers 库星标破 10 万大关,该库允许开发人员使用 BERT、XLNet、GPT、DistilBERT 或 T5 等著名的 NLP 模型,以各种方式处理文本。例如,开发人员可以对文本进行分类、创建摘要、提取信息、提供问题的自动答案、生成文本等。 该公司还提供付费服务,为公司管理私有模型和托管 API,其客户包括彭博社和 Typeform。总计约有 5000 家公司正在以各种身份使用 Hugging Face,其中包括将其用于必应搜索引擎的微软。 Delangue 认为,如果产品足够好并能吸引用户,那么资金最终将来自这些用户所服务的公司。在这一点上,Hugging Face 的愿景越来越清晰。公司正逐渐转型为一个平台,服务于用人工智能构建技术的愿景。 此后,Hugging Face 在 2021 年 1 月和 2 月实现了盈利,上一轮融资的 90 仍在银行账户中。此外,公司的估值增长了五倍。这增强了创始团队的信心,使他们有勇气为自己的愿景承担风险。 公司进行了 4000 万美元的 B 轮融资,这轮融资由 Addition 领投。现有投资者 A.Capital、Lux Capital 和 Betaworks 也参与了本轮融资。其他投资者包括 Olivier Pomel、Dev Ittycheria、Alex Wang、Aghi Marietti、Florian Douetteau、Rich Kleiman、Paul St.John、Kevin Durant 和 Richard Socher。 新一轮融资的资金进一步增强了公司的实力,使其能够:更加专注于自然语言对话的研发;为 NLP 生态系统开发更多产品和服务;发展 NLP 开发人员社区。 远大的愿景:开源与协作式机器学习 目前,Hugging Face 不仅在 NLP 领域,而且在更广泛的人工智能领域,都可以被看作是杰出和有前途的初创公司之一。团队不断取得令人瞩目的里程碑式成就(分享自首席执行官 Clem Delangue 致 Hugging Face 全体员工的信): Hugging Face 已成为扩展最快的社区和使用最广泛的机器学习平台!平台上有 10 万个预训练模型和 1 万个数据集,涵盖 NLP、语音、时间序列、强化学习、计算机视觉、生物、化学等领域。Hugging Face Hub 已发展成为机器学习构建者开发、协作和部署尖端模型的家园。 目前有 10000 多家公司使用 Hugging Face 来构建机器学习技术,Hugging Face 帮助这些机器学习工程师和数据科学家团队节省了大量时间,加快了机器学习项目的进度。 Hugging Face 还领导着 BigScience,一个专注于研究和构建大语言模型的合作研讨会。这项计划汇集了来自不同领域和背景的 1000 多名研究人员,BigScience 致力于训练世界上最大的开源多语言模型。 凭借这些成就,Hugging Face 完成了价值 1 亿美元的 C 轮融资,以 20 亿美元的估值跻身独角兽行列。本轮融资由 Lux Capital 领投,红杉和 Coatue 也为本轮融资做出了重要贡献,此外,Addition、a_capital、SV Angel、Betaworks、AIX Ventures、Kevin Durant、Thirty Five Ventures 的 Rich Kleiman 和 Olivier Pomel(Datadog 联合创始人兼首席执行官)等现有投资者也为本轮融资提供了支持。 Clem Delangue 从这些成功中获得了更大的信心,他认为机器学习是一种全新的技术构建方法,可以取代传统的软件开发。 以前的技术构建方式是编写一百万行代码,机器学习正在开始这样做,但做得更好、更快。 我的设想是,就像 GitHub 之于软件一样,Hugging Face 也将成为机器学习的 “枢纽”。 有了新获得的资金,Hugging Face 团队计划将资金用于以下方面:在研究、开源、产品和负责任的人工智能平民化方面加倍努力;为人工智能开发者建立社区;对人工智能领域产生更积极的影响。 AI 领域的 “GitHub ” 2023 年 8 月 23 日,Hugging Face 成功完成 D 轮融资。公司宣布以 45 亿美元的估值成功融资 2.35 亿美元,自 2022 年 5 月以来,这一估值使该公司在短短一年多的时间里身价倍增,并远高于其年化收入。 本轮融资的主要参与者包括谷歌、亚马逊、Nvidia、英特尔、AMD、高通、IBM、Salesforce 和 Sound Ventures。 Hugging Face 现在拥有 10000 多家客户,已在人工智能领域站稳了脚跟,仅他们的模型中心就包含 100 多万个资源库。HubSpot 的一项调查显示,企业对人工智能的兴趣与日俱增,43% 的企业领导者计划在 2023 年增加人工智能投资。 Hugging Face 还宣布与大型科技公司合作,进一步扩大对人工智能工程师社区的支持:与 Nvidia 合作,确保更广泛的云计算访问;与亚马逊和微软合作进行产品扩展。 Delangue 对未来有着远大的梦想,Hugging Face 目前拥有 170 名员工,公司计划在未来几个月内扩大在不同领域的业务,同时也希望壮大自己的团队。 总结 自 2018 年首次开源 PyTorch BERT 以来,Hugging Face 团队已经走过了漫长的道路。Hugging Face 创始人兼首席执行官 Clem Delangue 的一段话给了创业者启示。 作为一名创业者,不要过多地从战略角度考虑十年的商业计划,而是更多地去尝试,并遵循社区告诉你的东西: 有时,你应该集中精力,不假思索地解决眼前的挑战。这与乔布斯 “连点成线” 的信念相似,即一切最终都会汇聚成一幅完美的图画。 继续专注于产品的核心价值,让一切变得越来越好。 享受打造产品的过程,分享学到的价值观。通过这种方式,创始人将为自己的产品建立起受众群,并为彻底改变产品打开机会之门。