温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买账号或充值会员,请扫码添加我们客服咨询。
王耀南院士指出,AI大模型正经历从“大参数”到“强能力”的技术突破,其核心在于海量数据与算力支撑下的自监督学习,在行业应用上,大模型已渗透至智能制造、医疗诊断、自动驾驶及科学计算等领域,显著提升复杂任务的处理效率与准确性,未来方向将聚焦于多模态融合、轻量化部署及可信AI构建,强调模型需具备更强的常识推理与可解释性,需解决算力能耗、数据隐私及伦理对齐等挑战,推动大模型从“可用”向“可靠、可控”演进,最终服务于实体经济与社会可持续发展。
本文目录导读:
最近几年,AI大模型这个词越来越热,很多人都在问,大模型到底是什么?它跟以前的AI有什么不同?它会给我们的生活和工作带来哪些改变?带着这些问题,我看了王耀南院士的一些讲话和文章,王耀南院士是中国工程院院士,长期从事人工智能、机器人、智能制造等领域的研究,他对AI大模型的理解很深,而且讲得很清楚,下面我就结合他的观点,给大家梳理一下。
AI大模型到底是什么
王耀南院士说,大模型不是突然冒出来的,它是过去几十年AI技术发展的结果,以前的AI模型,比如语音识别、图像识别,都是针对某一个任务训练的,你让它认猫,它就只能认猫,你让它认狗,它就得重新训练,这样的模型很“专”,但也很“窄”。
大模型不一样,它是在海量数据上训练的,这些数据包括文字、图片、声音、视频等等,模型通过学习这些数据,掌握了很多通用的知识,然后你再给它一个具体的任务,比如写一篇文章、画一幅画、回答一个问题,它就能直接做,而且效果还不错,这就是“大”和“通用”的好处。
王耀南院士特别强调了一点:大模型的本质是“参数规模大”和“数据规模大”,参数越多,模型能记住的知识就越多,数据越多,模型学到的规律就越准,所以现在的GPT-4、Claude 3、Gemini这些模型,参数数量都达到了千亿甚至万亿级别,这在以前是不敢想的。
大模型的核心技术是什么
王耀南院士讲了大模型的几个关键技术,我挑几个重点的说。
第一个是Transformer架构,这个技术最早是Google在2017年提出来的,它跟以前的神经网络不一样,以前的网络处理文字是按顺序来的,一个字一个字地读,这样速度慢,而且容易忘掉前面的内容,Transformer可以同时看一整段文字,而且能通过“注意力机制”找到哪个词最重要,这就让模型的理解能力大幅提高。
第二个是预训练和微调,大模型先在海量数据上做预训练,学一个“基础版本”,然后针对具体的任务做微调,比如你想做一个法律咨询的机器人,就用法律相关的数据去微调一下,这样既保留了大模型的通用能力,又提高了专业领域的表现,王耀南院士说,这个方法大大降低了AI应用的开发成本,以前你可能要花几百万做一个模型,现在用大模型微调一下就可以了。
第三个是强化学习和人类反馈,大模型生成的答案不一定都是好的,有时候它会胡说八道,有时候它会给出有偏见的回答,所以需要用人类反馈来训练它,比如让几个人给模型的答案打分,然后让模型去学习哪些答案是高分,这样反复训练,模型的回答质量就会越来越好,ChatGPT用的就是这个方法。
大模型能做什么
王耀南院士举了很多例子,他说大模型的应用范围非常广,我简单列几类。 生成,写文章、写代码、写邮件、写诗、写故事,这些都可以,你给一个指令,它就能输出一段内容,比如你想写一个产品介绍,把产品名称和特点告诉它,它就能帮你写一段文案,而且速度很快,几分钟就搞定了。
第二类是对话和问答,比如你做客服,以前需要很多人回答用户的问题,现在可以用大模型来做,用户问什么,它都能回答,而且可以24小时在线,王耀南院士说,很多公司已经在用这个技术了,银行、电商、教育行业都有人在用。
第三类是代码和编程,这是一个很大的应用方向,比如你用Cursor写代码,写一个函数,它就能自动补全,或者你写一段注释,它就能生成对应的代码,这对程序员来说非常方便,很多人说Copilot和Cursor是程序员的“第二大脑”。
第四类是多媒体处理,比如用Midjourney画图,用Suno做音乐,用AI剪辑视频,这些都是大模型的功劳,王耀南院士说,未来每个人都能成为“创作者”,因为你不需要掌握复杂的技能,只需要说一句话,AI就能帮你完成。
大模型带来的挑战
王耀南院士也谈到了大模型的问题和挑战,他说不能只看到好的一面。
第一个是算力问题,训练一个大模型需要大量的计算资源,英伟达的GPU卖得很贵,而且很难买到,训练一个GPT-4级别的模型,可能要花几千万美元,一般的小公司和研究者根本搞不起,这就导致大模型的技术被少数公司垄断了。
第二个是数据问题,大模型需要海量的数据,但很多数据是有版权、有隐私的,比如你拿患者的病历去训练模型,那患者的隐私怎么办?你拿作者的书籍去训练,那版权怎么算?这些都是现实问题,现在很多国家正在出台法律来规范。
第三个是可信问题,大模型有时候会“编造”答案,它知道的事情不一定是对的,比如你问它一个历史事件,它可能说出一段编出来的内容,这就很麻烦,如果是医疗、法律、金融等严肃领域,这种错误会带来很大的风险,所以王耀南院士提醒大家,用大模型的时候一定要有判断力。
第四个是安全问题,大模型可能被恶意使用,比如用大模型写诈骗邮件、制造假新闻、编造谣言,这些事已经发生了,所以各国政府都在想办法监管。
中国的机会在哪里
王耀南院士对中国的大模型发展很乐观,他说中国有很好的基础,第一,中国有海量的数据,十四亿人,每天都在产生各种数据,这些数据可以用来训练模型,第二,中国有强大的制造能力和应用场景,比如智能工厂、智能交通、智能医疗,这些领域都可以用大模型来提升效率,第三,中国有很多优秀的AI人才,像百度的文心、阿里的通义、字节的豆包,这些产品都在快速迭代。
但他也说了不足,比如高端芯片被卡脖子,英伟达对中国出口了阉割版的芯片,性能差很多,这就导致中国做大模型的人,只能用更少的算力去训练更大的模型,难度很大,还有底层的框架和算法,中国跟美国的差距还在,这些都需要时间去追赶。
用户该怎么选大模型
王耀南院士给了普通用户一些建议,他说不要盲目追求“最先进”的模型,要根据自己的需求来选。
如果你需要写文章、做翻译、分析数据,ChatGPT和Claude都是很好的选择,它们比较均衡,ChatGPT的免费版可以用GPT-3.5,付费版可以用GPT-4,Claude的免费额度也够用。
如果你需要画图,Midjourney是首选,它生成的图片质量很高,风格也很丰富,缺点是它只能通过Discord用,而且需要付费,如果你预算不多,可以用DALL·E或者Stable Diffusion Online。
如果你需要编程,Cursor和GitHub Copilot都很不错,Cursor是基于VS Code的,用起来很顺手,Copilot支持很多编辑器,两个都可以免费试用。
如果你需要做音乐,Suno是一个很好的工具,它可以根据你的歌词和风格生成音乐,用起来很简单。
如果你需要综合能力,Gemini是一个不错的选择,它是Google出的,跟谷歌生态整合得很好,而且目前免费额度很充足。
如果你想做一些定制化的开发,可以用API中转服务,这样你可以把大模型的能力接入到自己的应用里,API中转的价格一般比官方便宜一点,而且不需要绑海外信用卡。
如果你想及时了解AI工具的最新动态和资讯,可以关注一些靠谱的AI资讯平台,AI工具更新太快了,几乎每周都有新东西出来,不关注的话很容易落伍。
总结一下
王耀南院士对AI大模型的看法很全面,他既讲了技术突破,也讲了行业应用,还指出了当前的困难和未来的方向,他说大模型是一个“里程碑式”的进步,但它不是终点,未来的AI会更聪明、更便宜、更安全。
对于我们普通用户来说,现在就是一个很好的时间点,大模型已经足够成熟,可以帮我们做很多事,而且很多工具都是免费的,你完全可以自己去试一试,用一下ChatGPT,画一张图,写一首诗,你就会发现AI真的不一样了。
也要保持清醒,AI不是万能的,它有局限,有错误,有风险,你要学会用它的长处,避开它的短处,就像王耀南院士说的,AI是一个工具,关键还是看人怎么用。
希望这篇文章能帮到你,如果你有任何问题,欢迎一起交流。
温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买账号或充值会员,请扫码添加我们客服咨询。


网友评论