突发科大讯飞ChatGPT开放内测

2023-04-26 09:06:37发表 作者:家有两千斤

就在近两天,讯飞星火认知大模型对外开启内测通道,该平台是在科大讯飞研发的国内ChatGPT,本次突然向内测者开通内测通道,可以说是研发很迅速了。

科大讯飞ChatGPT开放内测

科大讯飞ChatGPT产品

还有个神奇的英文名字Spark Desk,据说有“火花桌面智能助手”的意思。被称为Spark Desk是因为它是由科大讯飞开发的一款人工智能助手,可以为用户提供各种信息查询、语音识别、自然语言处理等服务。"Spark"在英文中意味着火花、激情和创新,寓意着它能够为用户带来充满活力和创新的1冬位而"Desk"则代表着它是一个桌面上的智能助手,可以随时随地为用户提供帮助。

讯飞这波操作,多少有点“反向跳票”的意思,因为早在今年2月初,科大讯飞就被曝加紧开发中国版ChatGPT。随后国内大模型关注度陡增后,科大讯飞率先给出了deadline:5月6日上线产品。万万没想到,距离正式发布还有10天,他们毫无征兆地开启了内测邀请。

从目前已经获得内测的网友评价来看,有一些人认为效果“超出预期”,但也有人反馈只是“中规中矩”。整体来看,表达效果不错的反馈占多数。获得内测资格的方式也有点意思,是AI打电话给确认的:

当然,科大讯飞大模型能力究竟如何,最好还是能实测后再说。

所以第一时间拿到内测邀请的我们,也连夜完成了测试。详情如下:

浅测讯飞大模型

登录进去后,首先看到的是讯飞星火认知大模型的自我介绍:

我能学习和理解人类的语言,进行多轮对话、回答问题和高效地帮助人们获取知识和灵感。

讯飞星火首页

老样子,还是从语文、数学、代码和逻辑几方面,测测讯飞星火认知大模型的综合能力。

那么我们就先从语文能力测起。

先来一个脑筋急转弯测试。

脑筋急转弯测试

讯飞星火的表现还算可以。

比如给出第一句,补充写一首鲁迅风格的诗歌:

诗歌补充

再换成周杰伦的风格呢?表现也还不错,马上替换了后三句的内容。怀念童年也是周董歌里经常出现的主题了。

周杰伦的歌

古文中的对对子,它也能对仗比较工整,表达意思上也没出什么问题,我们给的上联是:福慧双修须及物。

对下联

再测试一下成语接龙:

成语接龙测试

如果它接错了,提醒下能改正回来,也表现出了一定的多轮对话能力:

多轮对话能力也可以

创作的洋葱新闻,也有点意思~

洋葱新闻的创作

恐怖故事写的也有点水平:

恐怖故事

那么再看看数学能力?

基本的加减法、鸡兔同笼应对起来都很轻松了。

加法测试

加减运算

不过在高数方面还是有点困难,让它求解:f(x)=x(x-1)(x-2)(x-3),f’(0)=?

即便在我们提醒它算错了情况下,修正起来也比较困难(正确答案为-6)。

高数运算

OK,接下来就轮到代码能力了。

我们给的要求是:帮我写一个计算器程序。

确实完成了一个四则运算的简单计算器,甚至还有命令行操作界面:

四则运算

除了有一个小bug(函数外不能return)外,简单修改后可以运行。

四则运算程序

另外对于Python缩进的空格与tab之争,这只AI是个空格党。

生成表格能力也是有的,同时可以按照要求修改表格:

制作表格
修改表格

分析基本逻辑问题也可以:

基本逻辑分析

而且我们感觉讯飞星火的回答,总是很正经,对于脑洞大开的问题也是淡定的“总分总式”回答。

淡定式回答

当然也被绕到过沟里,回答出了“贾母找人搬机器”的瞎话:

文言文怎么称呼电脑

以上就是我们对讯飞星火的一个浅浅测试。

能力水平已经看到了,而大模型本身让人好奇的,还有它的技术细节~提前扒扒它的“模型底细”毕竟讯飞大模型还没正式发布,所以我们试着先从它自己这里“探探口风”。看看能不能通过问相关问题,提前摸出一些关于它的资料来。先是名字由来。讯飞星火认知大模型给出了技术向、公司向和文化向三个方面的回答,有议论文内味了:

星火寓意

再仔细追问一下为什么“星火”和“心宿”有关,好家伙,话题逐渐占星学了起来:

星火与心宿的关系

回到正题。那么,讯飞星火认知大模型的训练数据来源、模型参数量、联网状态如何?

首先是关于模型训练数据的来源。看起来资料还比较丰富,目前也还在不断更新中:

训练数据的来源

所以,讯飞大模型是否和ChatGPT一样,用了RLHF呢?它自己的回答竟然是没有:

是否用了RLHF

那么接下来,是关于模型参数量的问题,这里讯飞大模型回答得也比较模糊。

而且,给出的模型参数量竟然只有数亿个?(要知道,GPT-2模型参数量都有15亿)

模型参数

最后,是关于模型能否联网的问题。

看起来,它还不会实时联网,关于网易和暴雪的新闻只能追溯到几年前的消息:

网易起诉暴雪的新闻

用户也不能通过指令直接让它访问某个网站,查询特定信息,应该是加了某些限制:

无法访问指定网站

不过有意思的是,它还是声称自己需要联网工作,以访问特定信息数据:

联网测试

据讯飞星火认知大模型介绍,目前它的训练数据还在继续更新。

训练数据需要时间

换而言之,就是还在继续迭代,估计在正式发布前还会更新一版模型。目前来看,科大讯飞的这个讯飞星火认知大模型,表现已算不错。而且要知道,讯飞原计划给出的交卷时间是5月6日,现在突然发布内测,相当于不仅没跳票,还“反向跳票”了一波。

这样来看,除了科大讯飞在这NLP和认知智能方面确实有很深的技术积累以外,也说明,讯飞的技术和工程团队实战能力值得关注一波——不仅能打硬仗,而且“说到做到”。

0
网友评论
  • 😊
  • 😂
  • ❤
  • 😭
  • 😍
  • 😘
  • 🙄
  • 💀
  • 😫
  • 🤔
没有符合条件的内容