数据冗余是什么意思 数据冗余性是什么意思

作者:小菜 更新时间:2024-12-22 点击数:
简介:数据冗余是什么意思,如何解决数据冗余问题?今天我们就来聊聊这个话题。

首先我们要明白,大数据时代,数据是有价值的,但并不是所有的数据都有价值。

比比如我们日常生活中使用的手机、电脑、平板等电子产品,这些电子产品的数据都是存储在硬盘里的,而硬盘里的数据也是有价值的,但是这些些价值的数据却无法通过网络传输到互联网上,所以就需要

【菜科解读】

数据冗余是什么意思,如何解决数据冗余问题?今天我们就来聊聊这个话题。

首先我们要明白,大数据时代,数据是有价值的,但并不是所有的数据都有价值。

比比如我们日常生活中使用的手机、电脑、平板等电子产品,这些电子产品的数据都是存储在硬盘里的,而硬盘里的数据也是有价值的,但是这些些价值的数据却无法通过网络传输到互联网上,所以就需要一个中间人来进行交易。

而这个中间人就是黑客。

编辑导语:什么是数据湖?企业可以利用数据湖尽可能保持业务数据的可还原性,解决存储全域原始数据的问题;而数据中台的存在则可以帮助帮助企业提升业务处理效率。

不过并非所有的企业都需要设立数据中台。

本篇文章里,作者对数据湖与数据中台进行了详细的解释,一起来看一下。

数据冗余是什么意思(数据冗余性是什么意思)

引言:文接上回,没有阅读第一部分的小伙伴请点击《10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)》查看,那我们就开始第二部分的内容吧,如有不准确的地方,还请希望大家进行指正。

一、数据湖

上文通过有序性与开放性分别对数据仓库与数据湖进行描述并对比,现在我们来详细地了解一下数据湖。

1. 数据湖的起源

数据湖主要是为了解决存储全域原始数据,其名称中的“湖”字将数据湖的含义表现得淋漓尽致。

像企业的生产数据(非结构化数据与结构化数据)、业务历史数据、临时数据,诸如IOT设备,移动应用程序以及传统的设备中返回的第三方数据都可以通过ETL工具形成的“水管”存储进数据湖中。

例如笔者之前在工作过程中接触的手机信令数据、GPS返回的定位数据等,这些数据实际上并没有预先定义好相应的数据结构,这就意味着可以先将数据存储起来而无需对数据进行结构化处理,也无需明确要进行什么分析,由数据从业人员在后续工作中进行探索和尝试。

上文中提到的结构化数据和非结构化数据,那什么是结构化/非结构化数据呢?下面我们就解释下两者的区别与联系。

2. 何为结构化/非结构化数据

举个例子。

我们收集到了这样一堆文字信息:

有个学生叫小赵,男的,97年的,土木工程系的,北京的;

有个学生叫小李,98年的,女的,外语系的,江苏苏州的;

·····

诸如此类的文字信息有几万行,我们存在word中,亦或是纸质版文件经由我们扫描成图片格式的,这类就可以称为非结构化数据。

假设有需求将这些文字信息中按照性别、籍贯、专业等等统计出来,我们在第一篇文章中提到了关系型数据库,用相关的技术和工具将这些文字信息进行处理,处理后的数据就是结构化数据。

所以结构化数据的定义:是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

非结构化数据:不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、 XML 、 HTML 、各类报表、图片和音频、视频信息等。

3. 数据湖的作用

回归正题,企业为什么要建立数据湖呢,首先数据湖中存在一个重要的组成部分ODS(Operating Data Store,操作数据存储),大家是否记得上一篇文章讲过OLTP(On-Line Transaction Processing),OLTP侧重于基本的、日常的事务处理,而我们现在提到的ODS就是OLTP数据的快照与历史。

我们在上文的数据库一节描述时提到业务数据库与数据仓库的结构不同,业务数据库是为OLTP设计的,是系统的实时状态的数据,而数据仓库的数据是为OLAP的需求建设的,是为了深度的多维度分析。

所以这样就会造成基于数据仓库的数据分析会产生以下的限制:

由于数据仓库的架构设计事先订好的,很难能做到全面覆盖,因此基于数据仓库的分析是收到事先定义的分析目标及数据库的框架限制。

从OLTP的实时状态到OLAP的分析数据的转换会有不少信息损失,举个例子来说,某个用户在某个应用程序中钱包的余额,在OLTP系统中仅仅只会按照业务发生情况对钱包中的余额进行实时更新,然而在OLAP系统中也是仅仅会记录对该钱包操作的交易,如果想要去查询并分析该用户的历史余额就会比较麻烦。

而从根本上来讲,数据湖的最主要作用是尽可能保持业务数据的可还原性。

数据湖的定位和搜索引擎类似,我们可以像在搜索引擎中检索数据一样,实现按需检索,即取即用,它存取这原始的未经改变的全量数据,可以存取、处理、分析。

4. 数据湖的发展#p#分页标题#e#

数据湖最早是2011年由Pentaho的首席技术官James Dixon提出的一个概念,他认为诸如数据集市,数据仓库由于其有序性的特点,势必会带来数据孤岛效应,而数据湖可以由于其开放性的特点可以解决数据孤岛问题。

但随着数据湖在各类企业的应用,大家都觉得:嗯,这个数据有用,我要放进去;那个数据也有用,我也要放进去;于是把所有的数据不假思索地扔进基于数据湖的相关技术或工具中,没有规则不成方圆,当我们认为所有数据都有用时,那么所有的数据都是垃圾,数据湖也变成了造成企业成本高企的数据沼泽。

所以这也是为什么“数据湖”叫“湖”,而不叫数据河,数据池亦或是数据海。

首先数据要能“存”,数据要够“存”,数据要有边界地“存”。

企业级的数据是需要长期积淀的,所以是“数据湖”。

同时湖水天然会进行分层,满足不同的生态系统要求,这与企业建设统一数据中心,存放管理数据的需求是一致的。

热数据在上层方便流通应用,温数据、冷数据位于数据中心的不同存储介质之中,达到数据存储容量与成本的平衡。

二、数据中台

我们终于迎来了最近几年很火的数据中台。

网上有很多文章关于数据中台的介绍,什么Hive、Spark、Hadoop、Kalfa等等很多技术名词,听上去非常的高大上而且云里雾里的,会使初涉产品的我们望而却步。

所以接下来我们从何为中台、何为数据中台、数据中台可以做什么三个方面来讲讲数据中台。

1. 何为中台

首先抛开数据,中台这一概念这两年在国内大火。

说起来源,网上文章都会提到这种组织是2015年马云参观Supercell的游戏公司借鉴过来的,并且后来“阿里巴巴”CEO逍遥子提出的组建的“大中台,小前台”的组织和业务体制。

那么我们能用一个比较浅显的例子来理解“中台”一词么?

当然可以,有一家连锁且超级便宜的意大利西餐连锁店“萨莉亚”,相信大部分同学都光顾过,9元的意面,24的披萨,上菜速度超快,虽然比不上传统西餐,但相比于这个价位,属实很良心了,而且目前萨莉亚在中国已经开设了将近400家(截止2019年)分店。

那么萨莉亚保持价格低廉同时上菜效率高效的原因是什么?答案很简单,就是中央厨房进行粗加工,然后门店的厨师仅需要简单地烹饪即可端上餐桌。

相比于传统餐厅采购(买菜)→配菜→做菜的环节,既减少门店厨师的数量,降低人工成本的同时又加快上菜速度。

回到我们研发流程来看,采购(买菜)→配菜环节就是我们研发的后台,他们帮助我们解决“有什么”;而配菜→做菜环节就是我们的业务前台团队,他们要做的就是根据客户的“口味”来“做什么”。

而配菜,蔬菜整理这个环节,也就是萨莉亚的“中央厨房”就相当于我们的中台,仅仅需要门店的需求,中央厨房就可以快速提供对应的材料,提高业务开发效率,减少重复开发成本。

2. 何为数据中台

介绍完了“中台”这一概念,数据中台相信大家也能举一反三。

没错,对于采购来的“菜”就相当于数据,做出来的“菜”就相当于业务部门所以需要的数据应用。

那么配菜环节就相当于IT部门的各种数据算法,每道菜单独配菜效率慢且冗余度较高,于是“中央厨房”就对数据算法进行规范化,系统化。

针对于业务部门所需要的各道菜提供粗加工的半成品,这就是“数据产品”。

这种“中央厨房”配菜的过程就相当于我们所说的“数据中台”。

那么是不是每个企业都必须搭建数据中台么?数据中台在业务上能解决什么问题呢?

3. 数据中台能做什么

所有企业是否都需要搭建数据中台?首先我们知道企业引进一项技术或产品,不在于是否“时髦”,不在于是否“高科技”,而在于是否适合该公司目前的发展,是否能提高公司的利润,降低公司的成本。

首先数据中台的作用通过对中台及数据中台的描述,总结以下2点:

提供数据产品及数据服务,包括但不限于决策支持类工具(例如业务报表、大屏数据可视化展示);数据分析类(BI商业智能、机器学习模型、数据挖掘);数据检索(日志分析)等;

提升企业各部门的数据连通性,避免数据孤岛的产生。

根据以上提到数据中台的两个优势,针对一个企业是否搭建数据中台,亦或是说一个企业在一开始从零到一就要构建数据中台?笔者在此有几点自己的总结:

首先针对于不同的行业,尽管传统企业数字化改革正在路上且已经有很多行业已经改革成功,但是针对于大部分传统企业,别说数据中台,公司连数据仓库的时代都没有到来,“罗马不是一天建成的”抛去建设数据中台的财力,时间成本高昂不提,就是对于传统企业的业务流转模式,企业员工接受程度来说都是一条难以逾越的鸿沟,数据中台不可操之过急。

#p#分页标题#e#

对于一些处于数据仓库时代的传统企业或互联网企业,由于各个部门不停无限地进行满足其业务支撑点取数要求、业务统计、看数需求,就可以尝试转型数据中台。

对初创企业,业务线单一且业务模式还经常不断变化,不断试错时,没有能力去进行数据中台的搭建,换言之就是“先活下去最重要”。

三、小结

本篇文章分两部分介绍了数据库、数据仓库、数据湖、数据中台的区别与联系。

关于数据有人说数据是新的石油资源,国家也将数据作为一种新型生产要素,与传统生产要素并列。

笔者曾经在泛互联网以及传统企业的业务部门都工作一段时间,由于各类原因,相比于泛互联网行业的数据化相比,传统企业的数据化之路并不一帆风顺。

2020年8月,国务院国资委引发《关于加快推进国有企业数字化转型工作的通知》表现出各国有企业未来数字化转型将成为必然,如何协助传统企业进行数字化转型,利用数据驱动传统行业迸发新的活力对于数据产品经理,尤其是对ToB的数据产品经理将会是挑战与机遇。

社保断交影响大不大?社保有个缴费基数是什么意思(2025年4月24日)

社保缴费是指参加各类社保保险并缴纳保费的行为,一般情况下指的是养老保险、医疗保险、失业保险、工伤保险、生育保险的缴费。

社保缴费主要分为两个部分,即单位缴纳部分和个人缴纳部分。

社保缴费基数是什么意思社保断交影响大不大?接下来随新社通app小编一起了解社保基数的具体详情吧。

社保基数是什么?社保基数,全称为社会保险缴费基数,是指用于计算用人单位及其职工缴纳社保费和职工社会保险待遇的重要依据。

它通常是根据职工上一年度的工资收入来确定的。

如何确定社保基数?一般来说,社保基数的确定有上下限的要求。

下限是当地上年度社会平均工资的一定比例(如60%),上限则是当地上年度社会平均工资的一定倍数(如300%)。

职工的工资收入在上下限之间的,按照实际工资收入确定社保基数;低于下限的,按照下限确定;高于上限的,按照上限确定。

如何了解社保基数?首先,可以通过向所在单位的人力资源部门咨询,了解单位为自己申报的社保基数以及计算方式。

其次,各地的社会保险经办机构通常会提供查询渠道,比如网站、服务窗口等,您可以通过这些途径获取相关信息。

此外,还可以关注当地消息,从中了解社保基数的调整情况。

社保断交影响大不大?断交社保有什么影响,具体是哪些?失业保险:单位需依法为职工缴纳失业保险,职工失业,符合要求的,可享受失业待遇。

职工申领失业保险金的条件之一是失业保险累计缴费满一年,如单位在员工在职期间未按缴纳造成欠缴断缴的,会影响失业保险金正常申领。

养老保险:根据相关要求,参加基本养老保险的个人,达到法定退休年龄时累计缴费满十五年的,可以按月领取基本养老金。

这里的“累计缴费满十五年”是指个人按缴纳养老保险的累计年限,社保断缴并不会影响之前的缴费记录。

生育险:生育险通常要求一定的连续缴费时间,以便享受相关费用的报销,包括产前检查和分娩等费用。

因此,如果在社保断缴期间怀孕或计划怀孕,需要特别注意以下几点:首先,生育险的报销要求可能因地区而异,有些城市可能要求连续缴费6个月,而其他地方可能要求9个月或更长时间。

因此,在计划怀孕前,建议确保满足当地生育险的报销要求。

其次,如果你在社保断缴期间怀孕,可能无法享受生育险的相关待遇。

你需要自己承担产前检查和分娩等费用,包括医疗费用和生育津贴。

总之,社保断缴可能会对生育保险的相关待遇产生影响,因此在计划怀孕或已怀孕的情况下,建议咨询当地社保部门以了解具体的相关法规,并采取适当的方式以保证自己和家庭的权益。

工伤保险是即交即用的,断交后立即失效,需要重新缴纳才能享受,不存在累计年限的问题。

医疗保险:在医疗方面。

一旦社保断缴超过一个月,就无法享受医疗费用的报销待遇。

这意味着如果在这个时候生病需要就医,所有的医疗费用都需要由自己承担,没有一分钱能够得到报销。

需要特别注意的是,大部分地区在医保断缴第二个月后将停止报销,但也有极少数地区在医保断缴三个月内仍可报销(这取决于当地法规)。

另外,如果社保断缴时间过长,例如断缴3个月,就需要连续缴纳6个月才能恢复医保报销资格;断缴6个月,则需要连续缴纳1年。

如果中途经常断缴,可能会影响将来享受终身医保报销的资格。

「医保断缴三个月会清0」是指连续缴费年限清0,职工医保个人账户的钱是不会清0的,累计缴费年限也不会清0。

因此,在换工作或离职时,务必要谨慎考虑社保的情况,以避免不必要的麻烦和损失。

保持社保的连续性对于个人的健康和生活质量非常重要。

影响购房、购车、子女上学等资格:在许多城市,社保的连续性是获取某些公共资源的重要指标。

例如,在一些城市购房、购车或子女上学等,都对社保的连续性有严格要求。

一旦社保断缴,这些资格的累计年限将重新计算,有些情况下,即使补缴也可能无效。

应国和鹰国是什么关系?是同一个国家吗

你知道平顶山还有一个雅称——鹰城吗?提起鹰城不得不提“应国”。

工作者上世纪80年代在滍阳镇考古发掘出一个古应国城址,出土了一批带文字的文物,上面刻有鹰字和鹰形图案。

古文字中“鹰”和“应”通假,是一个意思。

“鹰城”,因此得名。

应,周代姬姓诸侯国。

应字本作雁,甲骨与金文像人旁有一鹰状,说明应人本是以鹰为图腾的氏族部落,据史所载,应在即已立国。

《·世家·正义》引《括地志》、《汉书·地理志》注引臣瓒之说,以及《水经·水注》、《路史·国名纪六》、《舆地广记》等书,都曾提到《汲郡古文》云:殷时已有应国。

今本《》载,盘庚七年,“应侯来朝”。

西周灭商以后,改封其弟于应,应便成了姬姓诸侯国。

《左传·僖公二十四年》载周大夫富辰言:“昔吊二叔之不咸,故封建亲戚,以蕃屏周。

……邗、晋、应、韩,武之穆也。

”注:“四国皆武王子。

”由此可知,西周应国是在伐灭商代应国之后,因其故地而封周武王之子所建立的。

《国语·郑语》云:“当成周者,南有荆蛮、申、吕、应、邓、陈、蔡、随、唐。

”应是周王朝的南部屏障之一。

应国(鹰国)遗址,位于今平顶山市新华区滍阳镇南。

由于城址1964年已淹没于白龟山水库的西北隅,故对其形制和布局已难寻觅,其规模不得而知。

关于应之地域,《·滍水》云:“滍水东经应城南,故应乡也,应侯之国……彭水注之,俗称小滍水……彭水又东北流,直应城南而入滍。

滍又左合桥水,水出鲁阳县北恃山东南,经应山北,又南经应城西。

……谓之应水。

”(见《水经注》卷三十一《滍水》)古滍水即今之沙河。

彭水、应水即今之彭河,沙河、应河、彭水,至今三水犹存,与古应城地理位置十分吻合。

从地理位置上看,应国故城位于滍阳镇城内南部偏西高地上,西依舒山,南临沙河(滍水)。

应水自西北流经西门外向南注入沙河,处于山水环抱之中。

《汉书·地理志》颍川郡父城县原注:“应乡,故国,周武王弟(应作子)所封”;《左传·僖公二十四年》杜预注:“应国在襄阳城父县西南。

”杜说实误,应作“襄城父城县”。

又《水经注·滍水》:“牛兰水,又东南迳鲁山南,……水南注于滍,滍水东迳应城南,故应乡也,应侯之国,《诗》所谓应侯顺德者也。

”滍水即今之沙河,春秋时的城父邑,西周时期属应之地域范围。

《括地志》鲁山县条载:“故应城,因应山为名,在鲁山东三十里。

”《太平寰宇记》(卷八汝州鲁山县)云:“应国在襄城父城县西南。

”以上史书所载应城地址,大致就是平顶山市新华区滍阳镇的滍阳岭,志书所说位置略有不同,是因时代不同,同一地域而建制有异所致。

近20年的考古发掘也证实了应国的位置大体上就在郏县、宝丰、鲁山、叶县和平顶山市区一带。

随机文章北宋灭亡时为何不见杨家将,历史上真实杨家将的结局南极无雪干谷之谜,2000米冰层覆盖的南极竟有无雪区解析第五代战斗机世界排名,歼-20力压美饿位列第三德国导弹射程多远,最远可能不到600公里(受制约)咖啡店幻觉使你的眼睛欺骗你,盘点能让人产生错觉的图片

加入收藏
               

数据冗余是什么意思 数据冗余性是什么意思

点击下载文档

格式为doc格式

  • 账号登录
社交账号登录