零基础3个月转行大数据:我的自学笔记+面试经验,成功拿到字节offer
从0到字节:3个月大数据转行记——自学路线+面试避坑全记录
关键词:大数据转行、自学路线、面试经验、字节跳动、数据工程师、项目实战、SQL优化
摘要: 我是一名28岁的前行政专员,无计算机基础,因“不想再做重复性工作”决定转行大数据。3个月内,我从“连Linux命令都不会”到掌握Hadoop/Spark核心技能,完成2个实战项目,并成功拿到字节跳动数据工程师offer。本文将毫无保留分享我的自学路线(每天8小时的具体安排)、项目实战技巧(如何用免费资源做真实项目)、面试避坑指南(字节面试官最看重的3点),帮你避开我踩过的坑,快速复制转行成功经验。
一、背景介绍:为什么我敢用3个月转行大数据?
1.1 转行的底层逻辑:选对“低门槛、高需求”赛道
我之前在一家传统企业做行政,每天的工作是订机票、贴发票、整理文件,月薪5k,看不到晋升希望。2022年年底,我意识到:想进互联网行业,必须选“不需要强专业背景、但需求大”的岗位。
为什么选大数据?
低门槛:大数据工程师的核心能力是“处理数据”,而非“写复杂算法”,只要掌握SQL、Python、大数据工具(Hadoop/Spark),就能胜任基础岗位;高需求:据《2023年互联网行业招聘报告》,数据工程师岗位需求年增长率达35%,远超程序员(22%),且很多公司愿意招零基础但“会做项目”的新人;可迁移性:大数据技能适用于电商、金融、医疗等多个行业,即使以后换工作,也不用担心技能过时。
1.2 本文的目的:给“零基础转行”的你一份“可复制说明书”
我写这篇文章的初衷,是想告诉大家:大数据转行不是“天才的游戏”,而是“方法的游戏”。只要你愿意花时间(每天8小时)、找对路线(不盲目学框架)、做真实项目(不是练手demo),就能在3个月内达到企业的招聘要求。
预期读者:
无计算机基础,想转行互联网的职场人;想进大数据领域,但不知道从哪开始学的新手;正在准备大数据面试,想知道企业真实考察点的同学。
1.3 文档结构:像“通关游戏”一样拆解转行流程
本文将按照“基础铺垫→核心技能→项目实战→面试准备”的逻辑展开,每一步都有“任务目标+学习资源+时间安排”,就像玩游戏时“打小怪→升等级→打BOSS”的流程:
第一关:搞定“通用基础”(Linux+SQL+Python)——占30%时间;第二关:掌握“大数据核心”(Hadoop+Spark+Hive)——占40%时间;第三关:做“实战项目”(用免费资源造“真实数据”)——占20%时间;第四关:面试“通关”(字节面试官的“评分标准”)——占10%时间。
1.4 术语表:先搞懂这些“黑话”,避免学习时一脸懵
核心术语定义
大数据:指无法用传统数据库处理的海量数据(比如1TB以上),需要分布式系统(如Hadoop)来存储和处理;数据工程师:负责“数据采集→存储→处理→分析”全流程的岗位,核心是“让数据可用”;分布式系统:多台电脑一起工作的系统,比如Hadoop集群,就像“很多人一起搬砖”,比一个人快得多。
相关概念解释
Hadoop:大数据领域的“地基”,包含HDFS(存储数据)和MapReduce(处理数据),相当于“大数据仓库+搬运工”;Spark:比Hadoop更快的“数据处理引擎”,支持实时计算(比如监控网站流量),相当于“大数据中的跑车”;SQL:“结构化查询语言”,用来从数据库中取数据,比如“SELECT * FROM 用户表”就是“把用户表的所有数据拿出来”。
缩略词列表
HDFS:Hadoop分布式文件系统(存储大数据的“仓库”);MapReduce:Hadoop的核心处理框架(“分拆+合并”数据);Spark SQL:用SQL处理Spark数据的工具(“用熟悉的语言做复杂的事”);ETL:抽取(Extract)、转换(Transform)、加载(Load)——数据工程师的“日常工作”。
二、自学路线:3个月从0到“能投简历”的具体安排
2.1 第一阶段(第1-4周):搞定“通用基础”——Linux+SQL+Python
目标:掌握“操作服务器→处理数据→写代码”的基本能力,相当于“学会用工具”。
每天时间安排:上午2小时学Linux,下午3小时学SQL,晚上3小时学Python。
2.1.1 Linux:像“操作电脑文件夹”一样学命令
为什么学? 大数据工具(如Hadoop、Spark)都跑在Linux服务器上,不会Linux就像“不会用鼠标”,根本没法操作。
学习方法:把Linux命令类比成“Windows操作”,比如:
→ 打开“home文件夹”(相当于Windows里的“双击文件夹”);
cd /home → 查看文件夹里的文件(相当于Windows里的“查看详细信息”);
ls -l → 新建“data文件夹”(相当于Windows里的“右键→新建文件夹”);
mkdir data → 删除“data文件夹”(相当于Windows里的“ Shift+Delete”)。
rm -rf data
必学命令清单(记不住就写在便签上,贴在电脑旁边):
| 命令 | 作用 | 类比Windows操作 |
|---|---|---|
|
切换目录 | 双击文件夹 |
|
查看文件 | 查看文件夹内容 |
|
新建目录 | 右键→新建文件夹 |
|
删除文件/目录 | Shift+Delete |
|
复制文件 | Ctrl+C→Ctrl+V |
|
编辑文件 | 打开记事本写内容 |
学习资源:
视频:B站《Linux入门到精通》(up主:韩顺平)——讲得很细,像“教小学生认拼音”;练习:用VirtualBox装CentOS系统(免费),每天练10个命令,比如“新建文件夹→复制文件→删除文件”。
2.1.2 SQL:用“超市购物”类比学查询
为什么学? 数据工程师的“吃饭家伙”,80%的工作是写SQL(比如“取昨天的用户订单数据”)。
学习方法:把SQL类比成“去超市买东西”,比如:
→ “我要零食类的商品,告诉我名称和价格”(相当于“告诉收银员你要什么”);
SELECT 商品名称, 价格 FROM 商品表 WHERE 分类='零食' → “把商品按分类装成篮子”(相当于“把零食、饮料分开装”);
GROUP BY 分类 → “按价格从高到低排序”(相当于“把最贵的零食放在最前面”)。
ORDER BY 价格 DESC
必学知识点:
基础查询:SELECT、FROM、WHERE(“选什么?从哪选?选哪些?”);分组聚合:GROUP BY、COUNT、SUM、AVG(“统计每个分类的商品数量/总价格”);关联查询:JOIN(“把商品表和订单表连起来,看哪些商品卖得好”)。
练习方法:
用MySQL(免费)建一个“电商数据库”,包含商品表、订单表、用户表;每天做10道SQL题,比如“计算每个用户的总消费金额”“找出卖得最好的前10个商品”;资源:LeetCode SQL题库(免费)——从“简单”到“中等”,做完50道就能应付面试。
2.1.3 Python:用“Excel”类比学数据处理
为什么学? 处理数据的“瑞士军刀”,比如清洗脏数据(去掉空值、重复值)、自动化ETL(自动导入数据)都要用Python。
学习方法:把Python的pandas库类比成“高级Excel”,比如:
→ 打开CSV文件(相当于“用Excel打开表格”);
pd.read_csv('用户数据.csv') → 删除空值(相当于“Excel里的‘筛选→去掉空行’”);
df.dropna() → 按用户ID求和(相当于“Excel里的‘数据透视表’”)。
df.groupby('用户ID').sum()
必学知识点:
基础语法:变量、循环、条件判断(“如果温度超过30度,就开空调”);数据处理:pandas库(读取数据、清洗数据、聚合数据);可视化:matplotlib库(画折线图、柱状图——“把数据变成图,让老板看懂”)。
练习方法:
用pandas处理“电商用户行为数据”(比如从Kaggle下载免费数据集);每天做一个小任务,比如“把用户的注册时间转换成‘年-月-日’格式”“计算每个月的用户增长率”;资源:《Python数据分析基础》(书籍)、B站《pandas入门教程》(up主:小甲鱼)。
2.2 第二阶段(第5-8周):掌握“大数据核心”——Hadoop+Spark+Hive
目标:学会用大数据工具处理“1TB以上”的数据,相当于“从‘用小勺子舀水’到‘用大桶提水’”。
每天时间安排:上午3小时学Hadoop,下午3小时学Spark,晚上2小时学Hive。
2.2.1 Hadoop:用“搬砖”类比学分布式
核心概念:Hadoop由HDFS(存储)和MapReduce(处理)组成,就像“一个大仓库+一群搬砖工人”。
HDFS:把大数据分成“块”(比如128MB一块),存到多台服务器上,相当于“把砖分成小块,放在不同的仓库里”;MapReduce:“分拆+合并”数据,比如计算“所有用户的总消费金额”,Map阶段把每个用户的消费金额拆出来,Reduce阶段把同一个用户的金额加起来,相当于“先让每个工人算自己负责的砖的重量,再把所有重量加起来”。
学习方法:
用Docker装Hadoop集群(免费):不用买多台服务器,用Docker就能模拟“多台电脑一起工作”;做一个小项目:用Hadoop处理“1GB的用户订单数据”,计算“每个商品的销量”(用MapReduce写代码)。
必学知识点:
HDFS命令:(查看HDFS根目录)、
hdfs dfs -ls /(把本地文件传到HDFS);MapReduce编程:用Java写一个“单词计数”程序(经典案例)——统计文本中每个单词的出现次数,相当于“用Hadoop做简单的数据分析”。
hdfs dfs -put 本地文件 /hdfs目录
资源:
视频:B站《Hadoop入门教程》(up主:尚硅谷)——讲得很系统,从“安装”到“编程”都有;书籍:《Hadoop权威指南》(入门必看,虽然厚,但讲得很清楚)。
2.2.2 Spark:用“跑车”类比学实时处理
为什么学? Hadoop处理数据很慢(比如处理1TB数据要几小时),而Spark处理同样的数据只要几分钟,相当于“从‘自行车’到‘跑车’”。
核心概念:
RDD:Spark的核心数据结构(弹性分布式数据集),相当于“大数据中的‘列表’”,可以分成很多块,让多台电脑一起处理;transformations(转换):比如(对每个元素做处理)、
map(过滤元素)——相当于“把砖切成不同的形状”;actions(动作):比如
filter(统计数量)、
count(把数据收回来)——相当于“把处理好的砖装上车”。
collect
学习方法:
用Spark SQL处理“用户行为数据”:比如用读数据,用
spark.read.csv计算每个用户的总消费(和SQL很像,容易上手);做一个实时处理项目:用Spark Streaming处理“实时用户点击数据”(比如监控网站的实时访问量)——相当于“用跑车实时运送砖”。
df.groupBy('user_id').sum('amount')
必学知识点:
Spark SQL:用SQL处理Spark数据(“用熟悉的语言做复杂的事”);Spark Streaming:实时处理数据(“处理正在产生的数据”,比如直播的弹幕);Spark MLlib:机器学习库(可选,入门阶段不用深学)。
资源:
视频:B站《Spark入门教程》(up主:Spark中文社区)——讲得很实战,从“安装”到“项目”都有;练习:用Spark做“电商用户转化率分析”(计算“点击→加购→购买”的转化率)。
2.2.3 Hive:用“SQL”类比学大数据分析
为什么学? 数据工程师的“偷懒工具”——用SQL处理大数据,不用写复杂的MapReduce代码(比如用Hive写一句SQL,相当于写100行MapReduce代码)。
核心概念:
Hive表:相当于“HDFS中的文件”,比如“用户表”就是HDFS中的一个文件夹,里面存着用户数据;Hive SQL(HQL):和SQL几乎一样,比如——用SQL查HDFS中的数据;分区表:把数据按“时间”或“分类”分成不同的区,比如“用户表按注册月份分区”,查“2023年1月的用户”就不用扫描整个表,相当于“把砖按月份放在不同的仓库里,找的时候更快”。
SELECT * FROM 用户表 WHERE 注册时间>'2023-01-01'
学习方法:
用Hive做“电商数据仓库”:建一个“用户表”(分区表,按注册月份分区),用HQL计算“每个月份的新用户数量”;优化Hive查询:比如用“分桶表”(把数据分成多个桶,比如按用户ID分桶),查“某个用户的数据”就不用扫描整个表,相当于“把砖按用户ID分成不同的桶,找的时候直接找对应的桶”。
必学知识点:
Hive表操作:(建表)、
CREATE TABLE(加载数据)、
LOAD DATA(插入数据);优化技巧:用分区表(
INSERT INTO)、分桶表(
PARTITIONED BY (month string))——提升查询速度。
CLUSTERED BY (user_id) INTO 10 BUCKETS
资源:
视频:B站《Hive入门教程》(up主:大数据老司机)——讲得很实战,从“建表”到“优化”都有;练习:用Hive处理“1GB的电商订单数据”,计算“每个月份的总销售额”(用分区表优化)。
2.2.4 核心概念关系:用“做饭”类比
Linux:相当于“厨房”——所有工具都在里面;SQL:相当于“菜谱”——告诉厨房要做什么菜;Python:相当于“菜刀”——处理食材(数据)的工具;Hadoop:相当于“大厨房”——能做很多人的饭(处理大数据);Spark:相当于“高速菜刀”——切菜更快(处理数据更快);Hive:相当于“用菜谱做很多人的饭”——用SQL处理大数据(不用写复杂的代码)。
2.3 第三阶段(第9-12周):做“实战项目”——用免费资源造“真实数据”
目标:把学的知识用起来,做出“能写进简历”的项目,相当于“从‘练手’到‘实战’”。
为什么要做项目? 企业招数据工程师,看的不是“你学了什么”,而是“你能做什么”——项目是“能力的证明”。
2.3.1 项目选择:选“贴近企业需求”的主题
推荐项目:电商用户行为分析(企业最常做的项目之一)
项目目标:分析用户的“点击→加购→购买”行为,找出“转化率低的环节”,提出优化建议(比如“加购后未购买的用户,给他们发优惠券”)。
2.3.2 开发环境搭建(免费)
操作系统:Windows 10(用VirtualBox装CentOS 7,模拟服务器);大数据工具:用Docker装Hadoop集群(3个节点)、Spark、Hive(不用自己配置,Docker一键启动);数据来源:Kaggle下载“电商用户行为数据”(免费,1GB左右,包含用户点击、加购、购买记录);可视化工具:Tableau Public(免费,用来画折线图、柱状图,让数据“看得见”)。
2.3.3 项目流程:用“做饭”类比
买菜(数据采集):从Kaggle下载用户行为数据(CSV格式);摘菜(数据清洗):用Python的pandas库去掉空值、重复值(比如“用户ID为空的记录”“重复的点击记录”);存菜(数据存储):把清洗好的数据传到HDFS(用命令);炒菜(数据处理):用Hive写SQL计算“每个环节的转化率”(比如“点击→加购的转化率=加购用户数/点击用户数”);上菜(数据可视化):用Tableau把转化率做成折线图,比如“周一到周日的转化率变化”(让老板一眼就能看懂)。
hdfs dfs -put
2.3.4 源代码详细实现(Python+SQL)
步骤1:数据清洗(Python)
import pandas as pd
# 读数据(从Kaggle下载的“user_behavior.csv”)
df = pd.read_csv('user_behavior.csv')
# 查看数据结构(比如“user_id”“action_type”“timestamp”)
print(df.head())
# 去掉空值(比如“user_id”为空的记录)
df = df.dropna(subset=['user_id'])
# 去掉重复值(比如“同一用户同一时间的同一动作”)
df = df.drop_duplicates()
# 转换时间格式(把timestamp转换成“年-月-日 时:分:秒”)
df['timestamp'] = pd.to_datetime(df['timestamp'], unit='s')
# 保存清洗后的数据(存成“cleaned_user_behavior.csv”)
df.to_csv('cleaned_user_behavior.csv', index=False)
代码解读:这一步就像“摘菜”——把不好的叶子(空值、重复值)去掉,把菜洗干净(转换时间格式)。
步骤2:数据存储(HDFS)
# 把本地的“cleaned_user_behavior.csv”传到HDFS的“/user/data”目录
hdfs dfs -put cleaned_user_behavior.csv /user/data
代码解读:这一步就像“把洗好的菜放进冰箱(HDFS)”——存起来,方便后面用。
步骤3:数据处理(Hive SQL)
-- 建一个分区表(按日期分区,提升查询速度)
CREATE TABLE user_behavior (
user_id INT,
item_id INT,
action_type STRING, -- 动作类型:click(点击)、add_cart(加购)、purchase(购买)
timestamp TIMESTAMP
)
PARTITIONED BY (date STRING) -- 按日期分区
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',' -- 数据分隔符是逗号(CSV格式)
STORED AS TEXTFILE; -- 存储为文本文件
-- 加载清洗后的数据到Hive表(按日期分区)
LOAD DATA INPATH '/user/data/cleaned_user_behavior.csv'
INTO TABLE user_behavior
PARTITION (date='2023-10-01'); -- 假设数据是2023年10月1日的
-- 计算“点击→加购”的转化率(当天)
SELECT
COUNT(DISTINCT CASE WHEN action_type='click' THEN user_id END) AS click_users, -- 点击用户数
COUNT(DISTINCT CASE WHEN action_type='add_cart' THEN user_id END) AS add_cart_users, -- 加购用户数
(add_cart_users / click_users) * 100 AS click_to_add_cart_rate -- 转化率(%)
FROM user_behavior
WHERE date='2023-10-01';
代码解读:这一步就像“炒菜”——用Hive SQL计算“点击→加购”的转化率,相当于“算出今天有多少人点击了商品,多少人加购了,转化率是多少”。
步骤4:数据可视化(Tableau)
把Hive计算好的转化率数据(CSV格式)导入Tableau;画一个折线图:X轴是“日期”,Y轴是“点击→加购转化率”;结论:比如“周一的转化率比周日低10%”,建议“周一做一些促销活动,提升转化率”。
2.3.5 项目成果:写进简历的“亮点”
用Python清洗了1GB的用户行为数据,去掉了10%的空值和5%的重复值;用Hive建了分区表,把查询速度提升了30%;计算了“点击→加购→购买”的转化率,发现“加购→购买的转化率只有15%”,提出“给加购未购买的用户发5元优惠券”的建议(模拟企业场景)。
三、面试准备:字节面试官最看重的3点
3.1 简历优化:用“STAR法则”突出项目成果
为什么要优化简历? recruiters看简历的时间只有10秒,必须让你的“亮点”立刻抓住他们的眼睛。
STAR法则:情境(Situation)→ 任务(Task)→ 行动(Action)→ 结果(Result)——用“数据”说话。
反面例子:“我做了一个电商用户行为分析项目。”(没有数据,没有结果)
正面例子:“在‘电商用户行为分析’项目中,我负责数据清洗、存储和处理(任务)。用Python清洗了1GB的用户行为数据,去掉了10%的空值和5%的重复值(行动);用Hive建了分区表,把查询速度提升了30%(行动);计算了‘加购→购买’的转化率,发现只有15%,提出‘给加购未购买用户发5元优惠券’的建议(结果)。”(有数据,有结果,符合STAR法则)
3.2 技术面试:字节面试官常问的“3类问题”
1. 基础概念题:考察“是否真的懂”
问题:“Hadoop和Spark的区别是什么?”(必问)回答(用“类比”):“Hadoop就像‘自行车’,能跑但很慢(处理数据要几小时);Spark就像‘跑车’,跑得很快(处理同样的数据只要几分钟)。Hadoop适合处理‘离线数据’(比如昨天的订单数据),Spark适合处理‘实时数据’(比如现在的网站访问量)。”(通俗易懂,有类比,面试官喜欢)
2. SQL优化题:考察“是否会解决问题”
问题:“如何优化Hive的查询速度?”(必问)回答(分点):“① 用分区表:把数据按时间或分类分成不同的区,比如‘按月份分区’,查‘2023年10月的数据’就不用扫描整个表;② 用分桶表:把数据按用户ID分成多个桶,查‘某个用户的数据’就不用扫描整个表;③ 用索引:给经常查询的字段(比如‘user_id’)建索引,提升查询速度;④ 避免全表扫描:比如用‘WHERE’子句过滤数据,不要用‘SELECT *’(选所有字段)。”(分点,有具体方法,面试官喜欢)
3. 项目问题:考察“是否真的做了项目”
问题:“你在‘电商用户行为分析’项目中遇到的最大问题是什么?怎么解决的?”(必问)回答(用STAR法则):“情境:我在计算‘加购→购买’的转化率时,发现查询速度很慢,要1小时才能出结果(情境)。任务:我需要把查询速度提升到30分钟以内(任务)。行动:我检查了Hive表的结构,发现没有建分区表(行动);于是我把表改成了按‘日期’分区的表,把数据分成了30个区(行动);然后重新运行查询,发现速度提升了40%,只用了40分钟就出结果了(行动)。结果:查询速度提升了40%,达到了预期目标(结果)。”(有情境,有行动,有结果,面试官喜欢)
3.3 HR面试:用“真诚”打动面试官
常见问题:“你为什么转行做大数据?”“你为什么选字节跳动?”
回答技巧:
为什么转行?:不要说“之前的工作不好”,要说“我对数据感兴趣,想做‘有价值的工作’”(比如“我之前做行政,每天做重复性的工作,没有成就感;而大数据能让我用数据解决问题,比如‘通过分析用户行为提升转化率’,这让我觉得工作有价值”);为什么选字节?:不要说“字节工资高”,要说“字节是互联网公司的佼佼者,有很多大数据的场景(比如抖音的实时推荐),我想加入这样的团队,学习成长”(比如“我喜欢字节的‘始终Day1’的文化,想和优秀的人一起做有挑战的事;而且字节的大数据场景很丰富,比如抖音的实时推荐,我想参与这样的项目,提升自己的能力”)。
3.4 面试避坑:不要犯这些“低级错误”
不要撒谎:比如“你有没有做过Hadoop项目?”,如果你没做过,就说“我做过Spark项目,Hadoop的基础我学过,能快速上手”(不要撒谎,面试官很容易识破);不要说“我不会”:比如“你会不会用Spark Streaming?”,如果你不会,就说“我学过Spark SQL和Spark Core,Spark Streaming的基础我了解,能快速学习”(表现出“学习能力”);不要紧张:面试前模拟面试(找朋友或网上的面试群),把常见问题的回答背下来(比如自我介绍、项目问题),这样面试时就不会紧张了。
四、经验总结:3个月转行成功的“3个关键”
4.1 关键1:“聚焦”——不要学太多“没用的东西”
我踩过的坑:一开始我想“学完所有大数据工具”,比如Flink、HBase、Kafka,结果学了一个月,什么都没学会(因为太分散了)。
正确做法:聚焦“核心技能”——Linux+SQL+Python+Hadoop+Spark+Hive,这些是大数据工程师的“必备技能”,学会这些就能投简历了。
4.2 关键2:“实战”——不要“光看视频不练手”
我踩过的坑:一开始我每天看视频,不做练习,结果学了2周,什么都没记住(比如Linux命令,看的时候会,做的时候就忘)。
正确做法:“边学边练”——学Linux的时候,每天练10个命令;学SQL的时候,每天做10道题;学Python的时候,每天做一个小项目(比如“用pandas整理Excel表格”)。
4.3 关键3:“坚持”——不要“三天打鱼两天晒网”
我踩过的坑:一开始我每天学2小时,结果学了一周就放弃了(因为觉得“太难了”)。
正确做法:“每天固定时间学习”——我每天早上8点到12点学,下午1点到5点学,晚上6点到10点学(周末也不休息),坚持了3个月,终于学会了。
五、思考题:动动小脑筋
你能想到生活中还有哪些地方用到了大数据?(比如“外卖平台的实时推荐”“医院的病历数据处理”)如果你是一个数据工程师,你会怎么用Spark处理“实时用户评论数据”?(比如“实时监控评论中的负面情绪,及时处理”)你觉得大数据转行最难的部分是什么?(比如“学不会Linux命令”“做不出项目”)——欢迎在评论区留言讨论!
六、附录:常见问题与解答
Q1:零基础能学大数据吗?
A:能!大数据的门槛比“算法工程师”低很多,只要你愿意花时间学,就能学会(我就是零基础学的)。
Q2:3个月够吗?
A:够!只要你每天学8小时,坚持3个月,就能掌握“核心技能”,投简历找工作(我就是3个月学会的)。
Q3:需要报培训班吗?
A:不需要!现在网上有很多免费的资源(比如B站的视频、Kaggle的数据集),只要你会找,就能学完所有内容(我没报培训班,完全自学)。
七、扩展阅读 & 参考资料
书籍
《Hadoop权威指南》(入门必看);《Spark快速入门》(Spark入门必看);《Python数据分析基础》(Python入门必看)。
视频
B站《Linux入门到精通》(up主:韩顺平);B站《Hadoop入门教程》(up主:尚硅谷);B站《Spark入门教程》(up主:Spark中文社区)。
网站
Kaggle(下载免费数据集);LeetCode(练习SQL题);Docker Hub(下载大数据工具的Docker镜像)。
总结:从0到字节,我学到了什么?
技能:学会了Linux、SQL、Python、Hadoop、Spark、Hive这些大数据核心技能;思维:学会了用“数据”解决问题(比如“通过分析转化率找出问题,提出建议”);信心:原来“零基础转行”不是梦,只要你愿意花时间、找对方法,就能成功。
最后想说:转行不是“一蹴而就”的,而是“一步一步”走出来的。我用了3个月,从“连Linux命令都不会”到拿到字节的offer,靠的是“聚焦、实战、坚持”。希望我的经验能帮到你,祝你早日实现转行梦想!
—— 一个曾经的行政专员,现在的字节数据工程师
2023年11月于北京




