AI精选(36)-人工智能领域内的最新进展
主理人:
今日精选,深度丰富、精彩纷呈!我们诚邀大家继续关注并订阅我们内容,AI时代不落后,让每一天都充满启发和价值
一、AI竞争日趋白热化,最新机构统计:现在AI投资级别1000亿起步,通用人工智能现在别的玩家已经进不来了
DeepMind首席执行官:Google在AI上的支出将超过1000亿美元
在温哥华举行的TED大会上,DeepMind CEO Demis Hassabis表示:Google在AI上的投资将超过这一数字,尽管他没有提供具体的投资金额。
- 微软和OpenAI预计成本为1000亿美元的“星际之门”AI超级计算机
- 英特尔千亿美元投资新的芯片工厂
- 亚马逊计划向数据中心投资 1500 亿美元
- 软银千亿美元投资人工智能芯片企业
- 阿布扎比新基金投入 1000 亿美元,投资人工智能和硬件资产
二、Rewind公司正式推出之前他们展示可穿戴吊坠AI设备:LimitlessLimitless可以作为项链佩戴,或通过磁性扣子附着在衣物上
它能全天候的记录你和他人的所有对话内容,并且具有记忆功能。
然后你可以通过长按来激活个性化AI进行互动,回顾询问它记住的关于你的所有信息。
该设备分为Limitless Meetings 和 Pendant两款。
Limitless Meetings :是一个多功能的会议辅助平台。自动化会议准备、自动记录笔记然后总结,无需手动操作,可以集成到任何会议工具(如Zoom、Slack等)。
Pendant:是世界上最小的可穿戴AI设备,可记录整日对话和个人见解,配备-Fi和蓝牙功能,具有100小时的电池寿命。通过轻触或长按Pendant,用户可以随时询问其个性化AI问题。
试用:
三、2txt:Image to text 图像转文字使用Claude Haiku 和vercel AI SDK 创建的
可以将任意图像转换成文字的工具
它不只是简单的OCR,还会分析图片内容进行整理。
体验地址:
而且是开源的:https://github.com/ai-ng/2txt
详细介绍:https://xiaohu.ai/p/6160
四、Reka 刚刚推出了 Reka Core,这是一种新的多模式 LLM,可以处理文本、图像、音频和视频输入。多模态(图像和视频)理解:Core 不仅仅是一个前沿的大型语言模型。它对图像、视频和音频具有强大的上下文理解能力,是仅有的两个商用综合多模态解决方案之一。
128K 上下文窗口。Core 能够摄取并精确调用更多的信息。
推理能力:Core 拥有超强的推理能力(包括语言和数学),适合执行需要进行精密分析的复杂任务。
编码和Agent工作流程:Core 是顶级代码生成器。它的编码能力与其他功能相结合,可增强Agent工作流程的能力。
多语言:Core 对 32 种语言的文本数据进行了预训练。它能说流利的英语以及多种亚洲和欧洲语言。
部署灵活:与其他模式一样,Core 可通过应用程序接口、内部部署或设备来满足客户和合作伙伴的部署限制。
体验:https://chat.reka.ai/auth/login
五、微软宣布推出下一代最先进的 LLM——WizardLM-2新系列包括三种尖端型号:WizardLM-2 8x22B 、70B 和 7B - 与领先的专有 LLM 相比具有极具竞争力的性能。
WizardLM-2 8x22B是我们最先进的模型,仅略微落后于 GPT-4-1106-preview。
WizardLM-2 70B 在相同尺寸下达到了顶级能力。
WizardLM-2 7B 甚至达到了与现有 10 倍大的开源领先模型相当的性能。 WizardLM-2 8x22B和 WizardLM-2 7B 的模型权重在 Huggingface 上分享,WizardLM-2 70B 和所有模型的演示将在未来几天内推出
发布博客: https://wizardlm.github.io/WizardLM2
地址:huggingface.co/collections/microsoft/wizardlm-661d403f71e6c8257dbd598a
六、Meta 正在尝试一项名为 "Creator AI "的新计划。它将允许流行的影响者使用人工智能驱动的聊天机器人与 IG 追随者互动。 人工智能将使用以前的帖子、直接消息、评论和音频作为训练数据,模仿有影响力者的风格。
链接:https://www.nytimes.com/2024/04/15/technology/instagram-influencers-chatbots.html
七、2023 年全球 ChatGPT 使用频率(占总数的百分比)在全球范围内,17% 的用户每天使用,36% 的用户每周使用,以及每月 16%。
日常使用率最高的为印度(36%)、巴基斯坦(28%)和肯尼亚(27%)...
对ChatGPT认知率最高的国家有:印度(82%)、肯尼亚(81%)、印度尼西亚(76%)和巴基斯坦(76%)。波兰报告的知晓率最低,为 43%。
八、JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7BJetMoE采用稀疏激活架构,包含24个块,每个块包含两个MoE层:注意力头混合(MoA)和MLP专家混合(MoE)。
每个MoA和MoE层有8个专家,并且每个输入令牌激活2个专家。
全部使用公开数据训练,而且完全开源,包括代码和训练过程。
这种架构可以在不牺牲性能的情况下显著降低计算成本。在JetMoE-8B中,每个输入令牌只激活部分专家(expert),从而减少了总体的计算需求。具体来说,尽管总参数量为80亿,但每个输入令牌仅激活约22亿参数。
在与Open LLM排行榜相同的评估方法下,JetMoE-8B的性能甚至超过了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。
与具有类似训练和推理计算的模型(如Gemma-2B)相比,JetMoE-8B展示了更优异的表现。
论文: https://huggingface.co/papers/2404.07413…
模型: https://huggingface.co/models?other=jetmoe
九、Optimizer AI:专门为视频自动生成音效的AI工具 可以为AI视频自动配音升级到了1.0版本 效果比之前有了大幅提升 专门为视频自动生成音效的AI工具,可以为AI视频自动配音。
主要功能:
1、声音效果生成:用户可以利用这个平台生成适用于多种应用场景的声音效果,比如游戏中的射击声、跳跃声,动画中的雨声环境,以及视频中的地铁到站声音等。
- 变声:能够基于一个参考声音生成多个类似的声音。- 风格标签:许用户通过指定风格标签(如卡通、恐怖、8位等)来引导不同风格声音生成- 背景音乐或氛围声:生成用于背景音乐或创建特定氛围的声音。- 文本一致性:能处理和理解文本的信息,保持生成一致性- 更长的声音:生成时长更长的声音效果。
2、文本到声音效果转换(即将推出):允许用户输入文本描述,AI将根据描述自动生成相应的声音效果,增加使用的灵活性和创作的便捷性。
3、立体声、高质量音频支持(即将推出):OptimizerAl承诺将支持生成立体声、44.1kHz的高质量音频,提高声音的真实感和沉浸感。
4、视频到声音全面生成(即将推出):该功能将允许用户从视频中直接生成声音效果,进一步扩展声音创作的可能性。
官网:
在线体验:…
十、CTRL-F-VIDEO: 视频Ctrl-F 可以在视频中搜索特定的单词或短语可以让你像在word文档里使用Ctrl-F搜索关键词一样在视频里搜索内容。
主要针对YouTube视频,通过扩展输入想要搜索的词汇,可以直接在视频时间条上标记出匹配的词汇或相似词汇的出现的具体位置。
通过一个Chrome扩展来实现搜索功能。原理是在本地运行一个Whisper模型,将音频转换为文本再搜索。
项目地址:https://github.com/Evan-Wildenhain/CTRL-F-VIDEO