数据生命周期视角下AI“出海”东南亚的国际传播

【学术成果】时间:2025-06-25      来源:对外传播      

【内容提要】在人工智能迅猛发展的背景下,东南亚地区因其地理便捷、文化趋近和年轻庞大的互联网人口,日益成为AI“出海”的热土,构成了国际传播的新议题。数据生命周期的视角揭示了AI“出海”在数据生成采集、传输存储、处理应用、维护解释四个阶段的数据合规问题,促进了国际传播的知识生产转向。相较于西方跨国公司奉行数据攫取主义造成恶性事件,我国科技企业遵循东盟国家的《个人信息保护法》和人工智能监管法案,联合多方主体构建开源数据集、在本地兴建绿色高效的数据中心,为对象国培育数字人才,从而以包容、普惠和可持续发展的态度践行了“一带一路”倡议的“五通”理念。

【关键词】人工智能 国际传播 东南亚 数据生命周期


一、人工智能企业“出海”东南亚:国际传播的新议题

以ChatGPT的发布为标志,从大语言模型(LLM)到垂类应用的各类人工智能产品正在席卷世界市场。中国互联网络信息中心(CNNIC)的最新数据显示,我国已拥有4500多家人工智能企业,核心产业规模接近6000亿人民币,产业链覆盖芯片、算法、数据、平台、应用等上下游环节,备案上线的AI大模型就有190多个。出于扩大市场份额、强化技术优势、丰富应用场景、深化经贸合作等方面的考虑,AI“出海”势在必行。而东南亚地区凭借便捷的地理位置、年轻庞大的人口和文化趋同性,日益成为中国科技企业出海的热门地。据全球统计平台Statista推测,2024年东南亚的人工智能市场规模达67.2亿美元,并有望在未来五年内以近30%的年复合增长率形成300亿美元当量的超级市场。

相较于2009年后猎豹、UC、360等工具化应用的第一波“出海”潮,以及2016年后共享单车、移动支付等移动互联网模式带动的第二波“出海”潮,如今以人工智能为驱动引擎、通过技术差异化优势提供产品与服务的第三波“出海”潮已经预示了我国科技企业在技术范式上的创新。AI“出海”的重要性,不仅在于它对新兴海外市场的开辟,还因为它搭建了其他行业“出海”的数字基础设施,具有托举产业转型升级的意义。中国的AI应用也在积极融入东南亚百姓的衣食住行,成为其日常生活基础设施。这在主流媒体宣传之外开辟了“讲好中国故事”的新场所,深化了从媒介到平台的国际传播认识论转变。

在“一带一路”倡议的语境下,AI“出海”东南亚应视为一种基于利益共享和共同发展的理念、团结“全球南方”、超越西方现代化攫取模式,进而开辟更具自主性和包容性的国际传播道路的实践。有鉴于此,本文将阐释分析我国人工智能企业如何有别于西方科技公司,积极助力东南亚国家的基础设施建设和社会治理,提供平等发展机会,从而为推动构建人类命运共同体贡献力量。

二、探究AI“出海”的数据流动:国际传播的知识生产转向

人工智能由数据处理、机器学习和业务行动三个部分构成,数据(data)是贯穿产品全生命链条的核心要素。如果没有经过广泛、使用预定义规则和奖励条件的大型数据库的计算密集型训练,AI系统就无法识别任何东西、实现自主和理性,它本身就依赖于广泛的政治与社会结构。即使众多学者均意识到了AI对国际传播的重大影响,仍鲜有人关注数据流动问题,这既揭示了国际传播研究的盲点,也促使我们思考知识生产的转向。

有学者对近十年间国内的国际传播研究进行了梳理,发现该领域的研究对象已从国家主流媒体转向参与跨国信息流动的多元主体,其理论资源也从宏观的国家软实力叙事转向微观的跨文化共情。不过,无论是文化传播、话语体系、国家形象、传播现象等高频议题,或是“借船出海”“造船出海”这两个知名隐喻,国际传播研究始终存在着眼于“可见”的内容,而忽视“不可见”的数据的情况。在此,人工智能只是运输内容、被实体化的管道,其基础设施、劳动力、自然资源、物流、历史等装配(assemblage)要素并未得到充分的拆解。

本文认为,从数据流动的角度阐释AI“出海”东南亚现象,可以呼应国际传播知识生产的三重转向:对象上,从主流媒体转向科技企业;焦点上,从文本内容转向数据规制;理念上,从主体性的“宣传”转向主体间性的“沟通”。因为企业出海后总是需要研究东道国的法律规制,与当地政府积极沟通,围绕监管政策调整业务模式,从而保证本地化过程中合法合规的经营。具体而言,摒弃数据流动和隐私保护之间的二元对立,将数据视为数字经济赖以维系的生产资料,从东道国数据政策与企业实践的协商中探究数据合规之道,将是可行的分析思路。这也贯彻了政策沟通、设施联通、贸易畅通、资金融通、民心相通的“一带一路”倡议的精神。

三、数据生命周期管理:AI“出海”东盟六国的数据合规审视

“棱镜门”丑闻后,世界各国都格外重视公民隐私和数据保护,因此,如何在合规条件下采集、传输、存储、处理数据成为“出海”AI企业必须直面的问题。本文引入数据生命周期管理(data life circle management,DLM)的视角来概念化数据流动。“生命周期”原指有机体的演化规律,在引入信息工程领域后专指机构管理数据的动态过程。根据实际研究需要,数据生命周期会被划分为不同阶段:美国国家工程院院士周以真(Jeannette M.Wing)区分了数据生成、数据采集、数据处理、数据存储、数据管理、数据分析、数据可视化、数据解释八大环节。有学者在综述英国数字管护中心、美国国家科学基金会、国际数据管理协会等模型的基础上,概括出“数据创建–数据采集–数据传输–数据储存–数据处理–数据使用–数据维护–数据销毁”的关系链。

本文将数据生命周期管理精简为数据生成采集、传输存储、处理应用和维护解释四个阶段,以评估我国AI企业在东南亚的国际传播开展情况。需要特别注意的是,东南亚地区既存在政治、文化和法律制度上的区域特色,其内部又并非“铁板一块”,各国对AI的法律监管与合规要求有所差异。鉴于AI“出海”的实际情况,本文梳理了新加坡、马来西亚、泰国、越南、印度尼西亚、菲律宾六国的人工智能法案和《个人信息保护法》,并结合产业具体实践,阐释我国科技企业的数据合规状况。

(一)数据生成采集:个人数据保护与开源数据工程

采集获取训练数据是构建机器学习系统的基础,AI产业链上游的训练数据集的质量在很大程度上决定了下游AI产品的服务体验。目前,训练数据主要来源于互联网上用户主动分享的海量内容和传感器捕获的地理、生物信息。东南亚作为全球第三大人口聚集区,人口年龄中位数不足30岁,互联网渗透率为76%,增长潜力大,拥有充沛、可采集的数据。不过,美国人工智能社会学者凯特·克劳福德(Kate Crawford)指出,数据的“石油”隐喻与“越多越好”的提取指令正在剥离关心、认同或风险相关的责任,从而营造一种剥削、侵入和掠夺式的国际数据提取文化,背后隐含着许多行业、机构和个人的“殖民态度”——数据就在那里等待采集——他们不希望受到质疑或监管。

数据提取主义的迷思反过来凸显了遵守对象国《个人数据保护法》(PDPA)的必要性。纵观东盟六国的数据政策,虽然它们大致奉行“发展第一,监管第二”的准则,但也都颁布了限制数据采集、保护个人信息的相关法律,它们规定AI模型所采集的预训练数据必须有合法的来源,并强调个人信息的数据采集须获得用户的知情同意。例如,新加坡《个人数据保护法》(PDPA)将用户的同意权细分为明确同意、事先同意、具体同意三类。2022年二手交易平台Carousell因未经用户许可的数据采集遭到新加坡个人数据保护委员会(PDPC)罚款处罚;2024年美国企业OpenAI也被曝光秘密采集优兔(YouTube)视频来训练文生视频大模型Sora,该过程侵犯到了东南亚创作者的个人数据权益。

目前,“出海”AI企业发展的痛点在于如何从众多低质量的互联网信息中采集到适合模型训练、又合乎法律规定的数据。其中一种办法就是采用开源数据集,它节约成本且能在一定程度上规避知识产权、个人信息泄露的风险,并促进社区贡献,便于企业进行基准测试和比较。泰国等东道国已开始制定内部数据集成政策,允许组织和个人访问国家机构开放数据,为AI 提供合规的训练数据资源。而中国的企业、高校、研究院也在积极构建大规模语音识别数据集,以突破东南亚语种繁杂的AI 发展壁垒。例如,清华大学、上海交通大学联合发起的GigaSpeech 2数据集汇集了超三万小时、包含泰语、印尼语、越南语等小语种的音频数据,发布在代码开源社区Github、Hugging Face,供其他AI企业训练使用。

(二)数据传输存储:跨境数据流动限制与本地数据中心的兴起

在AI企业采集到训练数据后,就会面临数据跨境流动与数据本地化之间的矛盾。“跨境数据流动”是指跨越国家或地区的个人数据如姓名、身份证号、生物识别信息等,或非个人数据如智能家居、工业互联网、智能驾驶等的传输、存储和应用,虽然它被视为数字经济发展的风向标,但其风险在于本国数据被输往海外后可能对国家安全造成不利影响,尤其是个人信息的跨境流动会增加数据泄露风险,对个人隐私和人身财产安全构成威胁。例如,2024年泰国医学科学部系统被黑客攻击后,上万条公民就诊记录通过跨境数据通道被转售至“暗网”。

作为回应,跨境数据流动治理会要求“出海”企业等数据传输方向本国监管部门提交申请获得批准,而母国数据中心等接受方同样需履行监督部门的报备程序。纵观本文所涉东盟六国《个人数据保护法》的规定,大致形成了三种跨境数据治理模式:新加坡、菲律宾属于“自由跨境模式”,传输方除履行本国的法规要求之外,还可以通过《亚太经合组织跨境隐私规则体系》认证实现跨境数据传输,总体较为宽松;马来西亚、印度尼西亚和泰国属于“充分性认定模式”,监管部门会评估传输方母国的个人数据保护水平,并通过本国行政监督、用户知情同意、额外条款等方式确保数据传输的安全性;越南属于最严格的“本地化模式”,其《网络安全法》规定海外企业必须将越南的个人数据、服务使用者关系数据存储在境内,并且需设立分支机构或代表处配合政府监管。

鉴于数据出境风险和建设本国数字基础设施的需求,东南亚国家愈发提倡数据本土化(data localization)方案,并鼓励海外企业在当地兴建数据中心。长期以来,除新加坡外的东盟国家整体基础设施相对落后,信息通信产业投资不足,本地企业缺乏核心技术,因此5G、数据中心、智慧城市等数字基础设施的建设多依赖于跨国公司与本地国有企业的合作。友好的政策支持、廉价而丰富的土地资源,加上可再生能源的供应,促使东南亚成为数据中心建设的沃土。基于“数字丝绸之路”的宏观合作框架,中国科技企业正在积极投资建设数据中心,在合规传输、存储数据的同时赋能东南亚国家的数字化转型:如阿里云、腾讯云和华为云已在新加坡、泰国和印度尼西亚建设了数据中心,提供云计算和人工智能基础设施服务;万国数据公司在马来西亚柔佛投资建设了超大规模的数据中心园区,还与印尼投资局达成协议共建数据中心平台。这些企业在国内积累了丰富的数据中心建设经验,掌握前沿的数据安防技术,保证了模式输出的可靠性。

此外,中国企业还采用前沿技术和理念优化数据中心的建设运营,在实践中体现可持续发展的国际传播理念。首先是将数据存储和处理靠近数据源,减少数据跨境传输和泄露风险的边缘计算(edge computing)技术,如阿里云、华为云、腾讯云等均已推出了成熟的产品投放到云计算业务中;其次是减少能源消耗、碳排放量的绿色计算(green computing)理念,我国创建的246个国家绿色数据中心有半数以上达到了4A的绿色低碳等级,积极响应了《东盟能源合作行动计划》(APAEC)的框架。

(三)数据处理应用:AI产业的雇佣劳动与消费场景

在数据经历采集、传输和存储后,AI企业还需进一步处理(processing)数据,优化算法模型,打造AI产品投入消费市场,从而提升数据的价值。在数据处理的雇佣劳动环节,常常被大众忽视却关键的是数据标注工作:劳动力需要标记图像、语音、文本、视频的特征,以实现满足机器学习训练要求的可读数据编码。监督或半监督的机器学习都非常依赖这种人工标注。行业数据显示,目前数据标注工人和下游研发人员的需求比达到了惊人的1:100,人力资源的缺口可见一斑。

东南亚地区承接数据标注行业的一大优势在于规模庞大、薪酬低廉的青壮年人口,但科技企业对第三世界劳动力的征用可能导致劳工剥削、去技能化等问题,深化数据殖民主义问题。科技公司Mighty AI、Scale AI支付给非洲和东南亚工人的日薪仅8美元;世界上最大的图像识别数据集ImageNet依靠的也仅是时薪2美元的零工。美国《华盛顿邮报》还揭露了为脸书、微软等科技巨头提供服务的Scale AI公司剥削菲律宾工人的劣迹,该公司仅以6至10美元的日薪支付其劳动,还经常拖欠工资,很少为工人谋求救济援助。相比之下,华为公司携手泰国政府培养了近10万名数字人才,包括ICT专业人士、AI高阶开发者、绿色工程师、网络安全员及普通村民,创造了更多高附加值的就业机会,响应了东盟国家培养本地技术人才、为劳动力提供转型机会的发展诉求。

在数据应用环节,东南亚消费市场展现了在社交、娱乐、游戏、电商领域的高度粘性。七麦数据显示,零门槛视觉编辑的Canva和Wink、提供智能语音服务的Wiz、聊天问答机器人PolyBuzz、Question AI,以及私人订制虚拟伴侣的Talkie等中国出海企业打造的APP在东盟六国广受欢迎。地缘文化上的接近性,使国内主流AI应用只需微调就能“内销转出口”。许多爆款的出海应用都与字节跳动、阿里巴巴、腾讯等超级平台有联系,后者也积累了比西方AI企业更灵活而富有弹性的内容审核体系,因而在跨文化语境的内容治理上拥有更多经验。除此之外,中国科技企业高度重视东南亚消费者的诉求,甚至突破了多小语种训练障碍的瓶颈。2023年12月,阿里推出为东南亚用户量身定制的大语言模型SeaLLMs,它支持越南语、印尼语、泰语、马来语、高棉语、老挝语、缅甸语等绝大多数东南亚官方语言,直观展现了智能技术对跨国沟通的赋能。

不过,东盟国家对AI应用的监管仍值得“出海”企业重视,这种约束既与强大的社会规范有关,如新加坡社会就抵制出现暴力、淫秽、诽谤、歧视元素的AIGC产品。约束也可能源自明确的法律规定,越南的《数字技术产业法》会对AI产品进行风险等级分类,马来西亚的《反假新闻法令》、菲律宾的《反网络虐待与性剥削法案》则严令禁止了利用深度伪造实施性剥削的行径。鉴于不少AI软件可能被不法分子用作“换脸”生成敲诈素材,企业在数据防护上需格外重视。

(四)数据维护解释:人工智能运行的技术与社会补丁

即使是事先设计再完备的AI产品,一旦投入当地市场,也可能遇到意想不到的安全故障和风险事件。其中一大主因便是黑客对AI系统漏洞的试探、诱导和攻击,本文聚焦的东盟六国都报告过大规模数据泄露事件。而数据维护便是敦促企业打上技术性补丁的重要环节。新加坡政府在其《生成式人工智能治理模型框架》中指出,企业应建立必要的流程来监控、报告安全事件,使事件报告机制实现及时通知和补救,支持AI系统的改进。越南《人工智能开发指南》也强调了AI企业应具备抵御黑客攻击的能力,要求事先评估其系统安全性。

近年来,我国科技企业的安全防护意识与日俱增。字节跳动采用先进加密算法加固了旗下AI产品的数据传输过程,并建立了严格的用户信息访问权限控制体系。阿里云对API接口的安全审计、腾讯云推出的全链路安全防护方案,都旨在杜绝数据泄露风险。而终端安全市场上的北信源、天空卫士、白山云等公司也在为AI“出海”保驾护航。

除了黑客攻击,AI数据集或算法缺陷导致的系统性偏见、观点霸权、刻板印象、虚假信息等社会问题则更加隐秘,它们会潜移默化融入社会肌理、改变公众价值理念。数据解释作为DLM中最容易被忽视的环节,致力于将技术“黑箱”以不泄露商业机密的方式打开,重建AI与生活世界的联系,为技术系统的运行打上社会补丁。事实上,东盟六国的数据政策都在不同程度上强调了AI模型的透明度和可解释性,要求企业清楚地解释AI数据如何影响决策、对数据主体产生后果,并确保程序和算法以透明、公平的方式运行。

前文谈到的SeaLLM就是一个融贯社区参与的数据解释案例。为了提升模型的可解释性和适应性,阿里巴巴与东南亚的开发者社区合作,举办了多场技术研讨会和黑客马拉松比赛,邀请本地开发者和小语种专家参与模型优化和测试。SeaLLM还在Github上部分开源,鼓励东南亚开发者贡献本地化语料和改进建议。这充分彰显了我国AI“出海”企业合作共赢、共同发展的价值理念。

四、结语

在2025年达沃斯世界经济论坛上,联合国秘书长安东尼奥·古特雷斯指出,气候变化与不受监管的人工智能扩张是当今人类面临的两大重要挑战。当东南亚因人口、土地和能源优势成为海外人工智能企业投资的热土之时,殖民主义的幽灵也被传唤,它是当今国际传播中最大也隐藏最深的政治、历史与思想遗产,很容易被忽视。正如克劳福德所述,人工智能产业的殖民隐患源自其“巨机器”(megamachine)的实质,背后指向一整套物质化的供应链,包括网络数据集、计算周期、数据中心、硬件设备,以及制造、运输和体力劳动。

本文对“出海”AI企业数据生命周期管理的梳理就勾连了上述物质性要素装配的过程。相较于西方跨国公司推行数据攫取主义,导致不少劳工剥削、本地居民数据泄露、隐私侵犯的负面事件,中国企业遵循东南亚国家的《个人信息保护法》和AI监管法案,联合科研院所构建开源数据集,在本地兴建绿色、高效、安全计算的数据中心,为对象国培养数字人才,还推出支持东南亚语种的大语言模型,积极邀约本地开发者和专家参与AI建设,以包容、普惠和可持续发展的姿态践行数据合规义务。

这种数据合规实践反映了日益盛行的环境、社会和公司治理(ESG)理念。随着全球政治经济环境趋于复杂化,政策监管严格多样,ESG日益成为我国企业进入国际市场的“通行证”和“压舱石”,东南亚市场虽在ESG监管上起步晚但发展迅速。如果说中国面向东南亚的国际传播期望通过人工智能基础设施的建设和服务,助力东盟国家发展数字经济,那么“出海”AI企业就需要秉承ESG理念,关照在地社区与生态系统,真正迈向互联互通的共生发展道路。

本文系国家社科基金重点项目“重大突发公共事件媒介化治理的多元协同机制研究”(项目批准号:22AXW007)的阶段性研究成果。

曹钺系广东外语外贸大学新闻与传播学院讲师,广州城市舆情治理与国际形象传播研究中心研究员


分享: