查看原文
其他

关于一些技术点的随笔记录(二)

大数据学习与分享 大数据学习与分享 2022-07-09

1.Hive建表时开启事务机制导致insert失败


建表语句:
create table A ( table_code string, data_dt string, update_dt string) clustered by (table_code) into 1 buckets row format delimited fields terminated by '\033'     stored as orc -- orc格式 tablproperties('transactional'='true');
执行insert..values操作:
insert into table A values('1','2','3');
出现异常:
FAILED: SemanticException [Error 10265]: This command is not allowed on an ACID table default.a with a non-ACID transaction manager. Failed command: null
原因:

Hive建表语句指定tblproperties('transactional'='true'),则执行插入操作时,不能直接使用insert..values语句,原因是开启了事务机制。建议使用insert..select方式。

2.Scala模式匹配中 @ 的含义


@是为了给模式匹配起个变量名,一般格式为:variableName@pattern,示例:
val list = List(1, 2, 3, 4, 5, 6)
list match {    //right其实就代表了一个集合,元素为3,4,5,6 case List(_, _, right@_*) => println(right)    case _ =>}
list match {    //这种写法错误 //case l:List(_, _, _*) => println(right)
    //正确写法,下面两种输出结果一致    case list@ List(_,_, _*) => println(list) case list: List[_] => println(list)}

3.监控Yarn上Spark任务
可以通过要监控的任务列表,对比存活的Spark任务,不存在的可以通过短信或邮件的方式预警。获取Spark还在运行状态任务的示例代码:

private def yarn(): Unit = {    val yarnConf = new YarnConfiguration() val yarnClient = YarnClient.createYarnClient()
    yarnClient.init(yarnConf) yarnClient.start()
    try {      import scala.collection.JavaConversions._      //YarnApplicationState有应用不同的运行状态,如RUNNING、FINISHED val applicationReports = yarnClient.getApplications(util.EnumSet.of(YarnApplicationState.RUNNING))
applicationReports.foreach { ar =>        //应用ID,spark.app.id println(s"appId ==> ${ar.getApplicationId}") //应用名字,spark.app.name println(s"name ==> ${ar.getName}")        //应用所处队列,spark.yarn.queue println(s"queue ==> ${ar.getQueue}")        //应用的用户 println(s"user ==> ${ar.getUser}") }
} catch { case e: Exception => e.printStackTrace() }
yarnClient.stop() }
4.结合业务场景的HBase预分区及热点处理

1)HBase字段本身做优化,比如手机号码倒置

2)针对row key进行哈希散列取前几位作为预分区前缀,最常见的就是通过MD5处理

3)查询场景不是全表scan或者get,而是范围scan,可以给row key加上固定的预分区前缀。写入数据时采用轮询方式,写入这些范围前缀。假如scan指定范围的话就需要一个scan转化为n多个范围scan,这个可以实现针对单个key过大的优化,相当于均分了n份。

注意:对row key进行散列处理后,表范围scan(全表扫描除外),所以要根据业务场景进行分表处理,比如按天。此外,数据量大时,可以给row key加上时间戳或随机数,避免覆盖。
具体可以参考《HBase高级特性、rowkey设计以及热点问题处理》

5.newInstance和new

newInstance:弱类型、低效率,调用无参构造,使用类加载机制。

使用newInstance()方法的时候,必须保证:

1.这个类已经加载
2.这个类已经连接了
而完成上面两个步骤的正是Class的静态方法forName()所完成的,这个静态方法调用了启动类加载器,即加载Java API的那个加载器。newInstance()实际上是把new这个方式分解为两步,即首先调用Class加载方法加载某个类,然后实例化。这样分步的好处是显而易见的。我们可以在调用class的静态加载方法forName时获得更好的灵活性,提供给了一种降耦的手段。

new: 强类型、相对高效,能调用任何public构造。从JVM的角度看,我们使用new的时候,这个要new的类可以没有加载。

newInstance是实现IOC、反射、面向接口编程和依赖倒置等技术方法的必然选择,new是实现具体类的实例化,不适合于接口编程

6.session共享

1)cookie加密的方式保存在客户端

优点:减轻服务器端压力

缺点:受到cookie大小限制,因为每次请求会在头部附带cookie信息,占用一定的带宽。另外,这种方式在用户禁用cookie的情况下无效。
这种方式不常用。
2)服务器间同步
比如tomcat集群:通过配置tomcat,实现session共享。
每个tomcat都会在局域网中广播自己的session信息,同时监听其他tomcat广播的session,一旦自己的session发生变化,其他的tomcat能够感知到的,同时就可以同步自己的session和它一样。
缺点:当集群服务器数量比较大如200台,每一台服务器的tomcat都需要广播自己的session,同时监听另外199台,此时,服务器的大量资源都用来处理session同步的事情,用户正常的访问就会受到影响。
要视部署的tomcat集群数量等来定是否使用这种方式。
3)基于分布式缓存的session共享机制

如使用redis取代session保存用户信息,这种方式比较常用


推荐文章:


关于一些技术点的随笔记录
Hive数据导入HBase引起数据膨胀引发的思考
HBase中Memstore存在的意义以及多列族引起的问题和设计
JVM垃圾回收器、内存分配与回收策略
Kafka中sequence IO、PageCache、SendFile的应用详解
笔试编程 | 二分查找、数组、排序
Hive Join优化
对Spark硬件配置的建议
Redis中的哈希问题

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存