(马秋月/文)今年3月,工信部发布《关于推动5G加快发展的通知》,其中指出:支持基础电信企业以5G独立组网(SA)为目标,控制非独立组网(NSA)建设规模,加快推进主要城市的网络建设,并向有条件的重点县镇逐步延伸覆盖。

近日,国家发改委首次明确新基建三方面内容:信息、融合和创新基础设施,从加快推动5G网络部署等方面促进新基建发展。

据了解,中国移动已经完成2020年5G SA核心网新建设备集采为全国8大区/31省公司新建5G SA核心网网元,包括虚拟层软件、SDN系统、NFVO+,以及系统集成等。电信联通2020年5G SA新建工程无线主设备联合集采5G建设所需SA无线主设备,共约25万站。

深度:增加数据点的数量 广度:增加数据源的多样性 高质量:整合混乱的数据!

在下面这几个不同的情况下,增加数据量是很有用的。

另外,中国广电的5G技术路线为700M广覆盖+4.9G容量覆盖、“低频+中频”协同组网,并采用SA独立组网支撑全业务服务。

而提高模型的预测能力的关键,就在于确定要获取哪些数据资源。

第四,市场业务方面,目前2C还无杀手级业务,2B仍在探索、起步,规模化需要时间。

我的商业经验也反映了这一点:通常情况下,公司往往在获取或合并更多的数据前,并没有先分析当前现有数据是否已足够。

那就需要,查找数据瓶颈!

哈佛大学教授Xiao-Li Meng曾做过一个非常鼓舞人心的演讲,他提到:“数据质量远比数据数量重要”。

如果模型表现不佳确实存在数据瓶颈,那就试着找出瓶颈在哪里。总而言之,可以从这三个方面入手:

第二,根据我的经验,我们所拥有的数据的多样性往往被夸大,这并不是因为新数据没有用处,而是因为新数据资源可能已经包含了以某种方式捕获的信息,特别是在已经有了一个相对丰富的数据集的情况下。

一次性获取 vs 反复获取 数据转换和存储的复杂性 数据质量和数据清理的需求 数据处理和解析

年初,中国移动在北京就已经成功完成业内首个多厂商、多省市的5G SA外场端到端业务验证和带宽测试,顺利实现了首批基于5G SA外场真实环境的多方视频通话、8K全景直播、切片VR等5G业务验证。

第三,在SA的网络体制下,全网复杂路由的SDN和多类型超海量连接的EPN,我们缺乏运用经验。“值得注意的是,全网集中一个网络运维系统有利于业务和网络资源的大数据统计和智能分析、能自动生成通信设备和服务的全局优化编排方案,但处理能力和处理时延都难以满足要求。如果按区域设置OSS,那么各个OSS需要跟中央OSS互通。此外,怎么合理设置边缘计算的力度是实践中需要探索的问题。”中国工程院院士邬贺铨说。

2020年是5G独立组网商用元年

评估新数据的成本可以看作是拥有数据的总成本。有时,购买数据或支付API会产生实际成本,但这只是其中的一部分。往往如下这些因素才是最需要考虑的:

第三,数据质量是关键,关注更小、更干净的数据集比关注更大、更混乱的数据集要好得多。

我之前有一份工作:便是在一家初创公司用机器学习做房价预测。我们的战略优势是拥有各种各样的数据,因此可以整合所有可能的数据资源,以帮助对房地产进行预测。

其次,在标准方面,虽然R15标准已经冻结,但相关协议仍需磨合完善。例如:端到端网络切片的标准问题,无论是国际还是国内,网络切片端到端的工作在功能架构和管理架构方面都亟需打通。同时,在跨域的过程中,不仅是端到端的切片能力标准尚未打通,还面临网络切片自动部署能力不足的问题。特别是网络切片和现有网络如何兼容?

延伸阅读 外籍人核酸检测插队称”中国人出去” 官方:依法处置 中国是否会有第二波疫情高峰?钟南山这样判断 抗疫物资收紧 仅欧盟美国认证无中国注册不能出口

数据作为机器学习或分析项目的基础,虽然现在拥有的可用数据比之前要多,但是数据不足或者数据类型不匹配等问题并不少见。

另外,中国联通运维部总经理马红兵呼吁政府在5G方面应给予更多的政策倾斜。“加快开放公共空间、公共资源用于5G部署,形成全员支持5G、建设5G的良好环境,同时在用电、用地、入场费、铁塔和其他租费共同承担社会责任,以实现5G的市场效益和社会效益结合。同时,强化产学研用的结合,推动5G产业链在标准、设备、终端等方面的成熟,加快5G建设和发展。”

第一,数据量的问题往往可以通过简单的统计显著性或准确性曲线来检验识别。如果这不是问题所在,那就继续进行下一步。

即使你没有将数据用于预测,但是想要丰富报告或者进行一次分析来证实你的决策,数据量仍然有可能会成为预测的瓶颈。不过如果你的数据具备许多异构性,并且你还能够从不同的粒度层级上对其进行分析,增加数据量便是正确的做法。例如你有一个庞大的销售队伍,销售的产品范围非常宽泛,每一个销售人员可能只销售产品中的一个子集。如果你想比较他们在销售某一特定产品方面的能力,可能就无从比较了。

数据质量经常是一个问题,而且还是一个大问题。这个问题可能是由于手工输入错误、原始数据的不准确性、聚合或处理层中的问题、某段时间内数据丢失等原因造成的。

如果你正在运行一个实验,需要足够的数据点来实现结果统计的意义,而需要多少个数据点,还受到其他因素的影响,例如:误差范围、置信区间和分布的方差。对于要进行的每一个实验,都有一个最小数据量阈值:如果已经达到这个阈值,则可以继续进行下一步,因为再增加数据点已经起不到任何作用了。否则,数据将会成为实验的瓶颈。下面这篇博文对此进行了很好的概述:

如何评估获取新数据的成本与收益?

于是,浩浩荡荡的5G SA核心网设备集采开始了。上周中国电信和中国联通2020年5G SA新建工程无线主设备联合集中采购工作正式完成,加上之前中国移动5G二期无线主设备集采(新建/扩容)的也已完成,三大运营商集采总额高达760亿元。

你不能一直控制数据点(例如:你不能轻易地新增用户),但是至少可以在某些方面一直控制这个点。

此前中国电信集团有限公司党组副书记、总经理李正茂在接受媒体采访时也表示:“中国电信计划实现5G独立组网全球首发商用,今年5G用户目标数是6000万到8000万,力争今年建成30万个5G基站,覆盖全国所有地级以上城市。”

按照计划,2020年广电正式商用5G,同时开展个人用户业务和垂直行业应用。2021年,把广电5G网络打造成为正能量、广联接、人人通、应用新、服务好、可管控的新型网络。

雷锋网原创文章,。详情见转载须知。

银西高铁甘宁段甜水堡站至洪德站间线路轨道已经铺设完毕。王光辉摄

虽然商用在即,但是过程也颇为艰难、面临很大的挑战:

首先,就是资本压力。从经济效益来说,5G不仅要面临巨额投资,还要面对巨大盈利压力大;同时,时间比较紧张,不到一年的部署商用时间。

数据的多样性是关键,但就经验而言,这方面的数据也常常被高估。

二:从数据广度上下功夫

提高数据质量,是一个需要花费大量时间并且很无趣的工作,但是它也可以给我们带来最有益的的结果。

这个演讲的美妙之处在于,他能够用数学方法量化这句话,观察数据质量或数量的统计度量。

这种方式不需要改变数据结构,而是新增数据点。

1、A/B测试或实验

截止目前中国联通已经开通5G基站8.5万个,预计9月底将新开通25万站。同时中国联通将加快SA的目标架构建设,加快演进。

据悉,中国电信计划在今年二季度完成4个省公司的核心网试点,力争三季度全国具备5G SA独立组网商用网基础。

如果你正在运行的是一个预测模型,预测精度会随着数据量的增加而提高,但是这个精度会达到某个“饱和”点,如何去发现是否已经达到这样的一个点呢?你可以用不同数量的训练数据点来重新训练模型,然后根据数据量绘制预测精度。如果曲线没有变平,则模型可能从额外增加的数据进一步受益。

一般来说,主要可以从以下三个方面来调整数据:

警方4月1日表示,3月31日下午约3时起有示威者在港铁太子站一带非法集结,部分人设置路障堵塞交通,夜晚更有暴徒投掷汽油弹。警方多次发出警告,提醒他们可能涉嫌非法集结,但无效,因此采取拘捕行动。此次共拘捕43男11女,年龄介于12岁至70岁之间,他们涉嫌非法集结、在公众地方行为不检、藏有工具可做非法用途及盗窃等。

今年2月底,中国移动董事长杨杰在调研中表示,坚持把5G建设发展作为重大政治任务,抓实抓细,把握关键时间节点,抓好5G独立组网测试进度,确保如期完成5G网络建设,做到5G建设目标不变、发展节奏不停。

3月18日,兰州铁路局兰州西工务段组织100多名职工对银西铁路甘宁段进行精调。近日,铁路部门对已完成轨道铺设,具备静态精调条件的银西高铁甘宁段甜水堡站至洪德站间线路轨道设备进行精细调整,这意味着银西高铁正式进入轨道静态精调阶段。

我们需要从两个关键点对新数据的收益进行评估:新数据与我们试图预测的目标变量的相关性是什么(希望尽可能高),新数据与已有数据的相关性是什么(希望尽可能少)。但是,这并不容易定量分析,但是一些定性的判断可以帮助我们筛选出最合适我们的新数据。

然而如何知道这些问题是真正的问题点还是仅仅是借口呢?换句话说,如何发现数据是否是项目的限制因素?

2、机器学习中的预测精度

而中国联通早就明确表示将基于5G独立组网(SA)标准建设5G网络,计划2020年正式商用。

新基建加快了5G SA网络商用的进程,三大运营商都加速向5G SA方向演进,中国广电5G也采用SA独立组网方式。预计今年将是5G SA网络商用元年,年内一定能实现商用。但是商用过程中面临的挑战也不小。

一:从数据深度上下功夫

虽然传统的机器学习模型可以在较小的数据量下运行,但是模型越复杂,它需要的数据量就越多,到最后,如果没有大量的数据作为支撑,深度学习模型就无法运行。对机器学习模型来说,大数据是一种需求,而不是提高性能的好方法。

Close