1. 首页>>分享

参加RightsCon会议有感:美国撤资下国际民间团体的结构性震荡

图片

(来源:MIT Technology Review)

几周前,在参与全球数字权利会议“RightsCon”的过程中,我切实地感受到了国际民间团体所正在经历的那种结构性的震荡。

RightsCon 是一个全球性的数字权利会议,它由非营利组织 Access Now 发起。这个会议的目的是促进人权、隐私保护和自由表达等核心议题,同时也推动技术创新。该会议每年在全球不同的城市举办。

今年的会议上,来自世界各地的民间社会组织进行了讨论。这些组织包括来自美国的。他们讨论的是如何应对全球数字权利工作面临的困境。其中一个重要情况是全球数字权利工作的最大资助方之一是“美国政府”,如今“美国政府”撤资了,这给全球数字权利工作带来了困境,他们正在探讨该如何应对这一撤资后的局面。

值得关注的是,当前美国的政治生态正在发生变化。此前在报道中曾指出,特朗普政府大幅削弱了美国联邦机构的职能,这令人震惊。并且,这种情况推动着美国政治体制朝着一些政治学家所说的“竞争性威权主义”方向发展。

这种转变重塑了华盛顿的权力图谱,同时对硅谷科技巨头的全球战略产生了深远影响,还波及了大量美国科技公司的运营与政策。要知道,这些美国科技公司的用户遍布全球,其用户数量远超美国本土市场。

在 RightsCon 会上,有不少与会者向我透露,他们已经察觉到这些科技公司在参与和支持用户基础较小的社区方面的意愿在减少,并且在支持这些社区方面的投资也在减少,尤其是在非英语用户群体方面。

正因如此,不少政策制定者以及商业领袖(尤其在欧洲的那些)已经开始重新审视对于美国科技的依赖情况,并且在思考是否能够迅速开发出更为出色、本土化的替代方案。在人工智能这个领域,这一趋势表现得尤为显著。

以社交媒体为例,这种现象在其中体现得最为显著。法学教授 Yasmin Curzi 是研究巴西国内科技政策的,她告诉我:“自从特朗普再次任职之后,我们再也不能对美国的社交媒体平台抱有哪怕是最基础的期待了。”

如今,社交媒体的内容审查大量运用了自动化技术。并且,还尝试借助先进的人工智能模型去识别存在问题的帖子。

然而,在印度、南非、巴西这些地方,这些系统无法识别出那些暴力内容。很明显,人工智能在适应不同文化以及语言环境等方面还有很长的路要去走。

欧洲非营利法律中心的一位专门研究人工智能治理的人权律师 Marlena Wisniak 指出,当下社交平台倘若过度地依赖大语言模型来进行内容审核,那么就有可能引发更为严重的系统性风险,并且情况会变得更加糟糕。

她告诉我:大语言模型自身的审核存在很多漏洞。这些审核效果不佳的大语言模型还被用于审核其他内容。这形成了一个恶性循环,错误一直在重复且不断被放大。

这种情况的部分原因是主流人工智能系统存在“语言偏食症”。它们主要依据英语国家的数据来进行训练,并且大多为美式英语。因此,一旦遇到当地语言和语境,像印度的方言俚语等,就会表现出“水土不服”的情况,其表现也会欠佳。

那些标榜能同时处理多种语言的多语言模型,在应对非西方语言时也会力不从心。

有人对 GPT 在医疗保健相关问题上的回复进行了评估。发现因为中文和印地语在北美数据集中的占比不高,所以它在这两种语言上的回复质量比英语和西班牙语要差很多。

许多 RightsCon 的与会者认为,这恰恰证明了他们一直所呼吁的观点。他们认为,无论是在社交媒体领域,还是在更广泛的其他领域,都需要更多以社区为导向的人工智能开发模式。

换句话说,要打破这种技术霸权,就需要推动人工智能研发模式的“本土化转型”。这种转型可能包含小语言模型,也可能包含聊天机器人,还可能包含针对特定用途、特定语言和文化背景设计的数据集。

能识别俚语以及诋毁性的词汇,能够理解由多种语言甚至字母书写组成的词句,同时还可以辨别“重新赋予意义的词汇”,这类词汇原本是诋毁性的,但如今被目标群体所接纳并且赋予了新的意义。

这些人工智能经过训练之后,有可能会呈现出一些细分的创新形态。例如,会有具备文化感知能力的人工智能助手;还有轻量化的区域语言模型。

这些通常是科技巨头会忽视的部分,即语言边缘地带:那些基于英语训练的语言模型以及自动化系统所忽略掉的内容,还有被它们误分类的内容。

初创公司 Shhor AI 的创始人对此在 RightsCon 会议上主持了一场小组讨论。他介绍了公司新推出的内容审核应用程序编程接口(API),且该 API 专注于印度本土方言。

实际上,许多类似的解决方案已经历经多年的发展。我们也报道过很多相关的项目。例如,Mozilla 发起了一个志愿者项目,其专门用于收集非英语语言的训练数据。另外,有一家名为 Lelapa AI 的初创公司,它专注于为非洲语言开发人工智能技术。

今年早些时候,我们曾将“小语言模型”纳入 2025 年“十大突破性技术”榜单。

现在的情况与以往有所不同。特朗普政府对美国科技公司的政策和行为产生了较大影响,这是一个重要原因,同时背后还有其他因素在起作用。

近期关于语言模型的研究和开发已达临界点。以往人们认为数据集规模是决定模型性能的关键,但现在这已不再重要。这种变化表明,更多人有机会参与到语言模型的开发中。

阿里亚·巴蒂亚(Aliya Bhatia)指出,毫不夸张地讲,在某些资源较为匮乏的语言环境当中,小语言模型完全具备成为多语言模型有力竞争者的可能性。

一方面,全球局势正在发生着变化。在 RightsCon 会议召开的前一周,巴黎举办了一场人工智能峰会,并且在这个峰会上,人工智能领域的国际竞争成为了焦点议题。

从那之后,“主权人工智能”的概念开始被广泛关注。其核心在于,某个国家或组织能够对人工智能开发的各个环节进行全面掌控。

实际上,人工智能主权是更广泛的“技术主权”的一部分。如今,大家对“技术主权”的关注度在不断提高。主要原因是人们越来越担忧数据传到美国后可能面临的隐私和安全问题。

去年 11 月,欧盟任命了首位专员,此专员负责技术主权、安全和民主事务。同时,欧盟推进了一项计划,名为“欧洲堆栈(Euro Stack)”。简单而言,该计划的目标是打造一套属于欧洲自己的数字公共基础设施。

这个概念的定义尚不明确,然而它或许涵盖能源、水资源、云服务、芯片、软件、数据以及人工智能等诸多领域。这些技术和资源对现代社会的发展以及未来的创新极为重要,可目前,它们大多掌控在美国的科技公司手中。

欧洲的这个计划在一定程度上参考了印度的经验。印度在几年前就推出了“印度堆栈(India Stack)”计划,并且建立了一套较为完备的数字公共基础设施,此基础设施中还包含一个名为“Aadhaar”的生物识别信息管理系统。

不久前,荷兰的议员们通过了几项新议案,这些议案的目的是降低荷兰对美国科技公司的依赖。

这让我想起了在 RightsCon 会议期间与瑞士数字隐私公司 Proton 的首席执行官 Andy Yen 的交谈。他指出,特朗普上任之后的一系列行为实际上起到了这样的作用,即“推动了欧洲采取行动,并且让欧洲意识到必须重新掌控技术自主权”。

他解释道,一方面,总统具备影响科技公司高层的能力;另一方面,科技对于任何一个国家未来的经济增长而言,都是关键的因素。

仅靠政府的介入,并不意味着语言模型中的包容性问题就能得到解决。政府的介入只是其中一个方面,还需要其他力量的共同参与和努力,才能更好地解决语言模型中的包容性问题。

Aliya Bhatia 指出,需要明确政府在这个过程中的角色和界限。倘若政府开始指定哪些语言应优先发展,或者试图控制数据集中呈现的观点,就可能会引发一系列问题。因为用于训练模型的数据,在很大程度上塑造了模型的认知和理解方式,并且决定了它的“世界观”。

目前,谁都难以确切知晓这一系列变化最终将会朝着什么方向发展,也难以确定其中有多少仅仅是暂时的炒作行为。然而,不管怎样,这始终都是我们会持续予以关注的一个领域。

原文链接:

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/275259.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息