Spark-sql操作记录

2019年6月9日07:24:25

评论 1684字阅读5分36秒

摘要这一篇会介绍关于Spark-sql操作记录，包括新建和删除表；新建分区和删除分区；以及hadoop HDFS的常用的文件操作，文件的上传，查看等操作。

文章目录(Table of Contents)

新建表删除表

下面介绍几种新建表的方式：

将查找结果新建表

create table table_name as
select *
from A;

将查找结果插入分区

insert overwrite table test.tabel_A partition(year='2018',month='08',day='09',class='name')
select *
from A;

新建表（不含分区）

CREATE TABLE `test.tabel_A`(
`user_id` int COMMENT '用户id',
`age` float COMMENT '用户年龄')
COMMENT '用户姓名年龄'
ROW FORMAT DELIMITED
--这里要设置分割符号
FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://user/test/table_A';

新建表（包含分区）

CREATE TABLE `test.tabel_A`(
`user_id` int COMMENT '用户id',
`age` float COMMENT '用户年龄')
COMMENT '用户姓名年龄增量'
PARTITIONED BY (
`year` string,
`month` string,
`day` string,
`class` string)
ROW FORMAT DELIMITED
--这里要设置分割符号,这里设置逗号作为分隔符
FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
'hdfs://user/test/table_A';

上面是一些新建表的内容（关于往表内文件的上传在后面会讲到）

删除表

drop table test.tabel_A;

查看location

show create table test.tabel_A;

新建分区和删除分区

新建分区

alter table test.tabel_A add partition (year='2018',month='08',day='13',class='name') location 'hdfs://user/test/table_A/2018-08-13-name';

删除分区

ALTER TABLE test.tabel_A DROP PARTITION (year='2018',month='08',day='13',class='name');

hadoop HDFS常用文件操作命令

详细的可以查看下面的链接：hadoop HDFS常用文件操作命令

下面列一下常用的：

文件上传

hadoop fs -put < local file > < hdfs file >
-- 插入具体的分区
hadoop fs -put output.txt hdfs://user/table_A/2018-08-09

查看目录下的文件

hadoop fs -ls hdfs://user/table_A

查看插入后文件和文件的大小

hadoop fs -count hdfs://user/test/table_A/
hadoop fs -du hdfs://user/test/table_A/

Spark-sql函数

具体可以参考下面的链接：Spark API 全集(2):Spark SQL 函数全集

微信公众号
关注微信公众号

QQ群
我们的QQ群号

Phishing detection相关论文阅读

Phishing detection相关论文阅读

网络加密流量实验-数据不平衡处理

网络加密流量实验-数据不平衡处理

Python加载arff文件

Python加载arff文件

关于Coronavirus数据简单的可视化分析(Plotly的一个例子)

关于Coronavirus数据简单的可视化分析(Plotly的一个例子)

Mysql基础知识03-常见函数

Mysql基础知识03-常见函数

Mysql基础知识02-基础SQL语句

Mysql基础知识02-基础SQL语句

Mysql基础知识01

Mysql基础知识01

网络加密流量实验--基于原始流量

网络加密流量实验–基于原始流量

网络加密流量的相关研究

网络加密流量的相关研究

Anime-Face-Dataset数据集介绍

Anime-Face-Dataset数据集介绍

本文由王茂南发表于 2019年6月9日07:24:25
转载请务必保留本文链接：https://mathpretty.com/9587.html

目录

繁
本页二维码