夸克 7.0 全新升级:你的AI搜索
嘿,你知道吗?夸克最近升级了他们的“超级搜索框”哦!现在你可以用 AI 搜索做很多事情,比如检索、创作、总结,甚至还可以编辑、存储和分享信息呢!这简直就是一站式 AI 服务啊!

更新日期:2022-07-18
来源:系统助手
给你两句话,来品一下它们所蕴含的情感:“我真的会谢。”“听我说谢谢你,因为有你,温暖了四季……”
或许你会说,这很简单啊,不就是最近经常被玩的梗吗?但如果问问长辈,他们可能就是一副“地铁老人看手机”的模样了。
不过与流行文化之间有代沟这事,可不仅限于长辈们,还有 AI。这不,一位博主最近就 po 出了一篇分析谷歌数据集的文章,发现它对 Reddit 评论的情绪判别中,错误率竟高达 30%。
就比如这个例子:
我要向朋友怒表达对他的爱意。
谷歌数据集把它判断为“生气”。
还有下面这条评论:
你 TM 差点吓坏我了。
谷歌数据集将其判别为“困惑”。
网友直呼:你不懂我的梗。
人工智能秒变人工智障,这么离谱的错误它是怎么犯的?
断章取义它最“拿手”
这就得从他判别的方式入手了。谷歌数据集在给评论贴标签时,是把文字单拎出来判断的。我们可以看看下面这张图,谷歌数据集都把文字中的情绪错误地判断为愤怒。
不如我们由此来推测一下谷歌数据集判别错误的原因,就拿上面的例子来说,这四条评论中均有一些“脏话”。
谷歌数据集把这些“脏话”拿来作为判断的依据,但如果仔细读完整个评论,就会发现这个所谓的“依据”只是用来增强整个句子的语气,并没有实际的意义。
网友们的发表的评论往往都不是孤立存在的,它所跟的帖子、发布的平台等因素都可能导致整个语义发生变化。
比如单看这条评论:
his traps hide the fucking sun.
单单依靠这个很难判断其中的情绪元素。但如果知道他是来自一个肌肉网站的评论,或许就不难猜出了,(他只是想称赞一下这个人的肌肉)。
忽略评论的帖子本身,或者将其中某个情感色彩强烈的词语单拎出来判断其情绪元素都是不合理的。一个句子并不是孤立存在的,它有其特定的语境,其含义也会随着语境的变化而变化。
将评论放入完整的语境中去判断其情绪色彩,或许会大大提升判别的准确率。但造成 30% 这么高的失误率可不仅仅只是“断章取义”,其中还有更深层次的原因。
“我们的梗 AI 不懂”
除了语境会干扰数据集判别之外,文化背景也是一个非常重要的因素。
大到国家地区,小到网站社群都会有其内部专属的文化符号,这种文化符号圈层之外的人很难解读,这就造成了一个棘手的问题:若想更准确地判断某一社区评论的情绪,就得针对性地对其社区进行一些数据训练,深入了解整个社区的文化基因。
在 Reddit 网站上,网友评论指出“所有的评分者都是以英语为母语的印度人”。
这就导致会对一些很常见的习语、语气词及一些特定的“梗”造成误解。说了这么多,数据集判别失误率这么高的原因也就显而易见了。
但与此同时,提高 AI 判别情绪的精确度也有了清晰的方向。例如博主也在这篇文章中就给出了几条建议:
首先,在对评论贴标签时,得对他所处的文化背景有深刻地理解。以 Reddit 为例,要判断其评论的情绪色彩,要对美国的一些文化、政治理解透彻,并且还要能够迅速 get 到专属网站的“梗”;
其次,要测试标签对一些讽刺、习语、梗的判别是否正确,确保模型能够整整理解文本的意思;
最后,核查模型判断与我们真实判别,以做出反馈,更好地训练模型。
One More Thing
AI 大牛吴恩达曾发起过一项以数据为中心的人工智能运动。
将人工智能从业者的重点从模型 / 算法开发转移到他们用于训练模型的数据质量上。吴恩达曾说:
数据是人工智能的食物。
用于训练数据的好坏对于一个模型也至关重要,在新兴的以数据为中心的 AI 方法中,数据的一致性至关重要。为了获得正确的结果,需要固定模型或代码并迭代地提高数据质量。
……
最后,你觉得在提高语言 AI 判别情绪这件事上,还有什么方法呢?
欢迎在留言区讨论~
参考链接:
[1]https://www.reddit.com/r/MachineLearning/comments/vye69k/30_of_googles_reddit_emotions_dataset_is/[2]https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled[3]https://mitsloan.mit.edu/ideas-made-to-matter/why-its-time-data-centric-artificial-intelligence
夸克 7.0 全新升级:你的AI搜索
嘿,你知道吗?夸克最近升级了他们的“超级搜索框”哦!现在你可以用 AI 搜索做很多事情,比如检索、创作、总结,甚至还可以编辑、存储和分享信息呢!这简直就是一站式 AI 服务啊!
微软 PowerToys 新增“高级粘贴”功能:实时转换剪贴板内容
5月23日的消息说,微软正在给PowerToys加入一个叫做"高级粘贴"的新功能,它用上人工智能的厉害技术,能实时转换剪贴板上的内容。"高级粘贴"是在PowerToys 0.81版本里加上的,你可以按Windows键+Shift+V调出来。这样就能打开一个"高级粘贴"的文本框,里面有纯文本、Markdown和JSON等格式转换选项。这个新功能能帮我们提高工作效率,比如把一种编程语言的代码复制粘贴成另一种语言的代码。不过,要使用高级粘贴功能的更高级功能,就需要OpenAI API。
超半数用户未在 Win11 上使用过 Copilot,微软:暂缓 Copilot 新功能推出
嘿,你知道吗?微软的人工智能助手"Copilot"(以前是必应聊天机器人)已经在 Windows 11 和 10 操作系统、微软 Edge 浏览器和必应搜索引擎上运行了一段时间了。不过,根据 Windows Central 网站的一项民意调查,超过一半的用户说他们从来没在 Win11 上用过 Copilot 呢!所以微软现在决定先暂停推广 Win11 上的 Copilot 功能啦。
人工智能主要应用哪几个方面(人工智能应用有哪些方面)
人工智能(Artificial Intelligence, AI)是指通过计算机程序和算法,让计算机具有类似人类智能的能力,包括感知、理解、学习、推理等能力。AI是一种可以解决现实问题的技术,其应用场景广泛,除了我们常见的语音助手、智能家居等,还有很多应用值得我们深入了解。人工智能被广泛应用于各个行业和领域,其中包括:1.智能家居:智能家居系统可以自动控制家居设备,如照明、温度、安防、音响等,帮助人们更加舒适和安全地生活。2.医疗保健:
OpenAI推出漏洞奖励计划:寻找人工智能系统漏洞有奖
【本站】4月12日消息,人工智能研究公司OpenAI周二宣布,将向发现其人工智能系统漏洞的人提供高达2万美元的奖励。该计划是与漏洞奖励平台Bugcrowd合作推出的,人们可以通过该计划报告他们在使用其人工智能产品时发现的弱点、漏洞或安全问题。奖励金额将根据漏
诺奖得主:AI从缩短工作时间到提升工作幸福感
【本站】4月10日消息,上周因为清明节假期没调休,大家实现了一次上四休三的工作,引发网友对每周只上四天班的热议。据ITBEAR了解,2021年诺贝尔经济学奖得主、伦敦经济学院教授克里斯托弗-皮萨里德斯日前在采访中谈到了AI对人类工作的影响,认为劳动力市场能
网络安全公司开发AI工具,1分钟破解大部分常见密码
【本站】4月10日消息,网络安全公司Home Security Heroes最近开发了一款AI工具,可将大部分常见的密码在1分钟内被破解。生成对抗网络由生成器和鉴别器组成,生成器负责生成数据,鉴别器负责鉴定生成的数据是否及格,有点像是两个人相互交手提升技术,常用于图
康奈尔大学研究团队开发无声沟通技术,利用声纳眼镜执行任务
【本站】4月10日消息,美国康奈尔大学的研究人员开发了一种新技术,可以通过声纳眼镜进行无声沟通。这种眼镜利用微型扬声器和麦克风来读取佩戴者默念的单词,从而可以在不需要物理输入的情况下执行各种任务。该声纳眼镜使用一种名为 EchoSpeech 的无声语音识
人工智能芯片性能与功率效率,高通战胜英伟达成最大赢家
【本站】4月9日消息,高通公司和英伟达公司是目前两家领先的人工智能芯片制造商。周三公布的一组新的测试数据中,高通的人工智能芯片在三个衡量电源效率的指标中以2比1击败了英伟达。高通公司利用其在为手机等低功耗设备设计芯片的经验,推出了一款专为云端和
网络安全公司警告:超过一半常规密码可在1分钟内被破解
【本站】4月8日消息,网络安全公司 Home Security Heroes 近日发布了一份报告,称使用了名为 PassGAN 的新型 AI 工具,能够在不到1分钟时间内完成破解51%的常规密码。研究人员使用 PassGAN 测试了超过1568万个密码,在不到1分钟时间内成功破解了51%的密码。而
映宇宙集团接入GPT3.5 turbo和审核中的GPT4,将进一步提升语言处理能力
【本站】4月4日消息,近日,映宇宙集团公布了在AIGC领域的布局计划,未来将在数字人直播、互动社交、AI音乐、AI剧本和AI运营五大方向展开探索。据本站了解,映宇宙集团已经接入了GPT3.5 turbo,并正在审核中的GPT4也将很快被接入到其产品和服务中。
昇思MindSpore:人工智能的创新之源
作为开源的新一代全场景AI框架,昇思MindSpore生态在开源的三年时间里得到了快速发展,已成为国内最具创新活力的AI开源社区。截止目前,社区昇思软件下载量超过435万,增速第一;超过1.1万开发者为昇思贡献代码;5500多家企业基于昇思构建应用方案;240所高校开设了昇思课
史玉柱:未来游戏公司应重点布局游戏+AI领域
【本站】4月3日消息,据上证报从巨人集团相关人士处获悉,集团创始人史玉柱在内部谈及“游戏 + AI”话题。他认为,游戏 + AI 是大势所趋,未来公司须重点布局。史玉柱谈到未来游戏行业出路在哪儿,称内部研究下来,同时也是团队正在筹备的,第一个就是游戏 +
人工智能技术制作“特朗普被捕”照片引发担忧
【本站】4月3日消息,最近一张特朗普被逮捕的照片在社交媒体上引发热议。然而,这张照片并不是真的,而是由荷兰的一家开源调查媒体“响铃猫”网站的创始人艾略特・希金斯用AI技术制作的。据希金斯表示,他想要把有关特朗普可能被捕的消息可视化,于是用文本到
海天瑞声:大模型和AIGC领域带来更多机遇和挑战
【本站】4月3日消息,海天瑞声最近在其互动平台上发表声明,认为整个大模型和AIGC领域未来将保持长期向上发展趋势,但其发展速度、阶段性效果及其在算法、算力、数据等方面的布局释放均需要一定周期,希望投资者能够理性看待该领域目前所处的阶段。对于大模型