時間:2024-03-04 00:33作者:下載吧人氣:44
最近再學習spark streaming做實時計算這方面內容,過程中需要從后臺數據庫導出數據到hdfs中,經過調研發現需要使用sqoop進行操作,本次操作環境是Linux下。
首先確保環境安裝了Hadoop和sqoop,安裝只需要下載 ,解壓 以及配置環境變量,這里不多說了,網上教程很多。
切換到配置文件下:cd $SQOOP_HOME/conf
創建配置環境文件: cp sqoop-env-template.sh sqoop-env.sh
修改配置文件:conf/vi sqoop-env.sh:修改內容如下
配置完成后,執行命令sqoop-version ,檢查是否成功,如圖顯示sqoop 1.4.7即成功。
因為這里使用sqoop讀取postgresql的數據,所以需要將數據庫驅動包放到$SQOOP_HOME/lib 下即可 。
1、首先要啟動Hadoop集群,不然會報錯
執行語句 $HADOOP_HOME/sbin/./start-all.sh
2、執行sqoop語句進行數據導入到hdfs
sqoop import
–connect jdbc:postgresql:localhost:5432/test(數據庫的名稱)
–username postgres (填自己的數據庫用戶名)
–password 888888 (填自己數據庫的密碼)
–table company (自己創建表的名稱)
–m 1 (mapreduce的個數)
網友評論