首 页 | 要 闻 | 财 经 | 科 技 | 理 财 | 社 会 | 教 育 | 房 产 | 汽 车 | 旅 游 | 娱 乐 | 健 康
家 居 | 女 性 | 创 业 | 食 品 | 文 化 | 维 权 | 商 讯 | 城 市 | 生 活 | 商 业 | 营 销 | 游 戏

当前位置 > 主页 > 要闻 >
AI世界的新难题:互联网的信息不够用了!
时间: 2024-04-02 14:46 来源:新浪科技
【字号 】 【RSS订阅】 【打印】 【关闭

  来源:硬AI

  高质量数据的紧缺正成为AI发展的重要障碍。

  4月1日,据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。

  科技巨头的AI系统,比如能与人类聊天的ChatGPT,是通过学习网上的信息变得越来越聪明的。但现在,高质量、有用的信息日益紧缺,同时,一些网站开始限制AI公司访问他们的数据。据业界一些高管和研究人员表示,AI行业对高质量文本数据的需求可能在两年内超过供应,这将可能减缓AI技术的发展速度。

  面对信息不足的问题,AI公司正在尝试各种方法来寻找新的信息源。比如OpenAI正在考虑用YouTube视频里的对话来训练它们的下一代智能模型GPT-5。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。

  据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。随着数据需求不断增长,找到新的学习材料、与数据所有者的合作,让AI系统变得更加聪明,就成了这个行业的重要备战区。

  OpenAI的GPT-5面临10万亿到20万亿tokens的数据短缺

  AI语言模型的构建依赖于从互联网上收集的大量文本数据,这些数据包括科学研究、新闻文章、维基百科条目等。这些材料被分解成“tokens”,tokens可以是完整的单词或单词的一部分。AI模型通过分析和理解这些tokens之间的关系和模式,学会了如何生成流畅、自然的语言,从而能够回答问题、撰写文章甚至创作诗歌。

  模型的能力在很大程度上取决于它训练的数据量。通常情况下,数据越多,模型的性能就越好,因为它有更多的例子来学习不同的语言用法和复杂性。

  OpenAI通过为其GPT系列模型提供海量训练数据,不断提升性能,借此成为世界顶尖AI公司。这展示了大数据训练对于AI发展的重要性。

  但是,随着GPT-4模型的不断扩大,OpenAI对数据的需求也在急剧增长。Epoch研究所的AI研究员Pablo Villalobos估计,GPT-4训练涉及的数据量高达12万亿tokens,而未来模型,如GPT-5,可能需要60万亿到100万亿tokens。因此,即便是利用所有可用的高质量语言和图像数据,研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。至于如何弥补这一巨大的数据缺口,目前尚无明确方案。

  据媒体报道,为应对数据短缺挑战,AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势。扎克伯格表示,Meta能够利用网络上数以百亿计的公开共享图片和视频,这些数据的规模超过了大多数常用数据集,尽管其中高质量数据的比例尚不明确。

  而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外,OpenAI还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了Google的关注。

  Epoch研究所预测AI数据短缺危机将推迟至2028年

  两年前,Villalobos和他的同事写道,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。自那以后,他们变得更加乐观,在AI研究员Pablo Villalobos及其团队的审慎评估下,新的预期显示,这种短缺风险将延迟至2028年。

  这项乐观的更新基于对当前数据质量和可用性的深刻洞察。Villalobos指出,互联网上的绝大多数数据并不适合作为AI训练材料。在无尽的信息流中,只有一小部分数据(远低于先前预计)能对AI模型的增长和(4.81, 0.03, 0.63%)发展做出实质性贡献。

  同时,各大社交媒体平台和新闻出版商已开始限制其数据被用于AI训练。他们担心如果数据被自由用于AI训练,可能导致内容创造者和平台本身失去应得的经济回报。

  此外,普罗大众对于个人隐私的保护意识显著提升,许多人对于将私人对话如iMessage中的聊天记录提供给AI训练的意愿较低,人们可能担心他们的隐私可能会受到侵犯。

  最近,一位女记者就OpenAI最新模型Sora的训练数据向CTO Murati提问时,Murati未能明确回答,这引发了业界对OpenAI管理层对于训练数据来源的关注度的质疑。这一事件触发了更广泛的讨论,关于公共领域数据的所有权问题——我们在网络上发布的内容,究竟是属于个人私密还是公共共享的资产?

  因此,这些因素共同导致了数据获取的困境。随着用户和监管机构对数据使用的监控趋严,研究者们必须在保护隐私与数据采集之间找到新的均衡。

【领先财经网-www.591news.com.cn
    世界,的,新难题,新,难题,互联网,信息,不够,
    分享组件,请点击:
    推荐新闻:
    ·马斯克试驾量产版Cybertruck,称其为“有史以来最好产品”
    ·美图发布公告:创始人兼首席执行官吴欣鸿出任公司董事长
    ·美图公司吴欣鸿:AIGC将带来影像生产力的大爆发
    ·美图CEO吴欣鸿:AIGC对降本提效的需求会更加刚性
    ·华为P60系列发布,何刚:回到正常节奏,能够与苹果硬杠的只有华为
    ·迪士尼被曝大幅裁员!什么情况?
    ·“互联网+”医疗服务可纳入医保支付,微医数字化慢病管理成效显著
    ·推特被曝去年12月营收和利润同比降约40%,因广告商削减开支
    ·新东方回应招聘离职教师归巢
    ·亚马逊新任CEO去年薪酬超2亿美元,几乎都是股票期权
    新闻要闻>>
    ·三美现在最红的是她?
    ·她有机会成功上位吗?
    ·电动冲牙器的狂飙、迷茫和突破?
    ·郑氏姐妹的美丽思路:颅顶高不了一点
    ·不演古偶的她,这次赢了吗?
    ·她那么美,却又那么惨
    ·奚梦瑶和刘雯,超模的两条路
    ·吉祥汽车来了:首款车明年上市
    ·消息称iPhone 17系列屏幕有重大升级:“
    ·百度CIO李莹接任小度科技CEO
    ·韩国7月出生人口再创新低,连续45个月
    ·二季度全国婚姻登记数据
    ·冬天多吃莓果有助肌肤红润
    ·驴肉补益气血,走俏冬季餐桌
    ·夏季常吃三黎鱼可补虚益气
    热点财经 >>
    ·【一线调研·加快形成新质生产力】上
    ·AI营销公司奥创光年宣布获1500万美元
    ·三星或计划在两年内将部分Galaxy AI功能
    ·最高检检察长应勇有新职务
    ·迎战苹果Vision Pro 高通发布新款头显芯
    ·寒潮带旺取暖小家电销售,行业能否迎
    ·“木头姐”批评通用和福特放缓电动化
    ·社区食堂,进入“冰火两重天”
    ·被打假后,泰国“瑞幸”竟起诉瑞幸咖
    ·12月暨2024年度化工行业投资策略:布局
    ·不再兼容安卓!华为鸿蒙原生应用时代
    ·人形机器人将像智能手机一样无处不在
    ·DeepMind 的“非凡”新型人工智能出手了
    ·台积电第三季营收降幅低于预期 AI需求
    ·AI“上岗”,我的“饭碗”还稳吗?
    科技生活>> ;
    ·中国古代私家园林建筑的杰出代表 苏
    ·浪漫与现实的碰撞,爱情与面包的较量
    ·新华时评|传承“乒乓外交”精神,促
    ·教育部:将爱国主义教育纳入国民教育
    ·亿万富豪找回丢失25年儿子引热议,
    ·对话导演钱宁黄:环境一直变动 要为
    ·X掉蓝鸟,对标微信,马斯克收购Twit
    ·马斯克又吹牛?分析显示大广告客户并
    ·“千眼天珠”:能拍太阳打“喷嚏”的
    ·华尔街顶级分析师警告:美国人口老龄
    ·山东新增一所大学!
    ·微信 iOS 版 8.0.42 正式版支持多语言“
    ·办公之光?WPS AI已面向社会开放!
    ·蔚来推出电吸门升级服务 专为NT1平台
    ·机器人写作不过关,美国最大报业集团
    ·故宫博物院:9月1日起,开放入馆时间