Rahul Kulhari: 除了与客户相关的交付成果外,我们还鼓励和认可创新和突破常规的思维。
大数据团队、技能和工具
在庞大的大数据领域,各种技能瞬息万变。您认为哪种技术在 ETL 数据领域和实时领域占据主导地位?
Rahul Kulhari: 一些开源技术将主导ETL工具。Airflow和Luigi在初创企业领域很受欢迎。
有志于成为数据工程师的人如何展现他们处理工具、技术、数据和领域的能力?Cloudera/Hortonworks 证书是否能带来明显的差异化?
Rahul Kulhari: 在这个范畴内,数据工程师有两种类型。
具备机器学习知识的数据工程师:对于这些工程师来说,认证并非关键因素。然而,拥有机器学习框架和库、ETL 工具或分布式系统方面的知识将是一个明显的优势。
精通 Hadoop/Spark 的大数 电话号码库 据工程师:认证对他们来说非常有价值。此外,ETL 工具、分布式和可扩展系统方面的知识也可以成为他们的优势。
对于数据工程师来说,分析技能、统计学、机器学习是必备技能吗?或者说是好技能吗?
Rahul Kulhari: 对于具备机器学习知识的数据工程师来说,统计学和机器学习是必备技能。对于具备 Hadoop/Spark 知识的大数据工程师来说,这些技能并非必备技能,但具备这些技能也是有益的。
数据科学行业准备情况
各行各业是否希望了解如何利用数据?他们是否拥有所需的数据?
Rahul Kulhari: 各行各业都迫切希望理解和利用数据来提升业务决策。然而,数据质量以及其他问题,例如选择合适的数据采集工具或平台、不同的系统、结构化和非结构化数据,都是挑战之一。
高管层必须与组织内部或外 线数据库部的专家合作,才能真正了解数据的潜力以及如何利用它。
术领域,数据科学面临的三大问题是什么?
拉胡尔·库哈里:
- 数据质量
- 数据捕获和存储系统
- 未标记数据
行业对大数据的准备情况
除了Facebook、谷歌、雅虎等社交巨头之外,大数据是否正在其他行业成为现实?如果是,哪些行业正在向大数据分析的强大力量迈进?如果没有,那么应用前景如何?
Rahul Kulhari: 是的,大数 如果购买的产品或服务的质量不能让 据潜力巨大,如今许多行业都在认真考虑应用大数据。医疗保健、人力资源、农业、电子商务、网络安全等都是一些值得考虑的领域。