0%

麦理浩径一共十段,长达100公里,前几段风景比较优美,我只走过二段的一半,我想把十段都走完,先把flag立下(3年实现)。

2019-06-23 走了二段的一部分,景色真的非常好,山径、海岸、溪流、沙滩。又乘坐快艇去了西贡,享受海鲜大餐。

2020-06-20 走完了一段和剩余的二段的一部分。

2020-09-20 走了五段,并从中登狮子山顶Lion Rock Head。

2020-11-08 走了六段全部和七段一半。

2020-11-22 走了三段。

一段和部分二段图片

起点

万宜水库

部分二段

二段图片

五段和狮子山

麦理浩径路段 长度 需时 景观
第一段,北潭涌- 浪茄 10 公里 3.5 小时 3.5
第二段,浪茄- 北潭凹 14 公里 4.5 小时 4
第三段,北潭凹- 水浪窝 9 公里 3.5 小时 4
第四段,水浪窝- 大老山 12.5 公里 5 小时 4
第五段,大老山- 大埔公路 11 公里 3.5 小时 2.5
第六段,大埔公路- 城门水塘 4 公里 1.5 小时 2.5
第七段,城门水塘- 铅矿坳 7 公里 3.5 小时 3.5
第八段,铅矿坳- 荃锦公路 9.5 公里 3.5 小时 3.5
第九段,荃锦公路- 田夫仔 6 公里 1.5 小时 1
第十段,田夫仔- 屯门 15.5 公里 5 小时 2

最常用的就是灵敏度和特异性,不过还有其他的,比如阴性预测值(negative predictive value, NPV)。

通常,先画一个ROC曲线,计算曲线下面积。ROC上的每个点是特定阈值下,分类的sensitivity和specificity,没多点连起来组成ROC,曲线下面积就是AUC。面积越大越好,如果AUC是1,说明模型能够完全区分要预测的类别。

如果不是1,就要考虑阈值取哪里比较好,这里就涉及到Youden index。Youden index 其实就是为了找到使得sensitivity和specificity之和最大max(sensitivities+specificities)的阈值。

另外就是考虑其他指标来评估分类模型的性能:specificity, sensitivity, accuracy, npv, ppv, precision, recall, tpr, fpr, tnr, fnr, fdr。这些指标可谓琳琅满目,不过这之间有重复的,如下,都是基于tn(真阴), tp(真阳), fn(假阴), fp(假阳)的个数进行计算。

预测
P N
实际 P TP FN
N FP TN

因为经常用到,就罗列了一下。

具体描述 公式 别名
tn True negative count真阴数
tp True positive count真阳数
fn False negative count假阴数
fp False positive count假阳数
specificity Specificity特异度 tn / (tn + fp) tnr
sensitivity Sensitivity灵敏度 tp / (tp + fn) recall, tpr
accuracy Accuracy正确率 (tp + tn) / N
npv Negative Predictive Value阴性预测值 tn / (tn + fn)
ppv Positive Predictive Value阳性预测值 tp / (tp + fp) precision
precision Precision精准率 tp / (tp + fp) ppv
recall Recall正确率 tp / (tp + fn) sensitivity, tpr
tpr True Positive Rate真阳性率 tp / (tp + fn) sensitivity, recall
fpr False Positive Rate假阳性率 fp / (tn + fp) 1-specificity
tnr True Negative Rate真阴性率 tn / (tn + fp) specificity
fnr False Negative Rate假阴性率 fn / (tp + fn) 1-sensitivity
fdr False Discovery Rate伪发现率 fp / (tp + fp) 1-ppv

最近电脑老是蓝屏,很是恼人,怀疑是win10系统的原因,重装了好几次还是蓝屏,于是决定装个黑苹果,用macOS系统(装好黑苹果MacOS 10.15 Catalina之后,发现可能是硬盘的问题导致蓝屏的,pity)。总结一下过程,看教程的时候很麻烦,实操一遍之后,回顾一下,其实还是蛮简单的,大致过程和装windows一样,就是多了添加clover引导,方便黑苹果从硬盘引导而不是U盘。下面是总结了一下过程,不是详细,方便以后再装

1,设置好分区

此电脑-管理-磁盘管理

(1)确保格式为GPT格式(GUID)

(2)确保有EFI分区

(3)压缩卷,给空出来的卷新建卷,不要选择格式化这个卷(安装黑苹果的过程中会进行)

(4)这个新建的卷就是安装黑苹果的分区

2,制作 MacOS 安装盘

(1)下载镜像

强烈推荐 “黑果小兵“ 的网站: https://blog.daliansky.net/

上面可以找OS的镜像,含有Clover引导

(2)制作安装U盘

下载Transmac: https://transmac.en.softonic.com/

有15天的试用期

选择 format with disk image,选择下载的OS文件,等待完成

3,安装Mac OS

(1)设置BIOS

不同的电脑的BIOS稍微不同,我看多数涉及下面这两个,其他的还需要自己搜下

比如SATA Operation 勾选 AHCI

Secure Boot Enable 勾选 Disable

(2)设置BIOS为UEFI U盘启动

通过U盘进入Clover引导之后,选择安装Install macOS ,中间会重启一次,重启之后,选择Install macOS Mojave from “你设置的盘”

等待系统安装好

4,设置Clover引导

(1)复制Clover文件夹

下载Mac版本的Clover configurator http://www.pc6.com/mac/294926.html,不拔安装U盘的情况下,在挂载分区的选项中把系统的ESP和U盘的ESP分区挂载上。

复制U盘ESP分区中的clover文件到到系统的ESP分区EFI文件夹下(和mircosoft同级)

(2)利用bootice添加Clover引导

在原来的windows系统下,或者通过Win PE,利用Disk Genius普通版即可,https://www.diskgenius.cn/ ,把系统的ESP分配一个盘符

下载安装bootice之后,https://bootice.en.softonic.com/

Bootice-UEFI0修改启动序列-添加,在路径上,选择ESP下EFI/CLOVER/CLOVERX64.efi,名称可以自己设置成Clover Boot Manager(开机的时候就是显示这个)

5,大功告成

开机的时候选择不同的引导进入不同的系统,这样也实现了单硬盘双系统。

参考:

https://hackintosh.kirainmoe.com/an-zhuang-zhong/efi-ti-huan-jiao-cheng

https://blog.daliansky.net/macOS-Catalina-10.15.5-19F96-Release-version-with-Clover-5118-original-image-Double-EFI-Version-UEFI-and-MBR.html

https://blog.csdn.net/qq_28735663/article/details/99695786

In May 24, 2020, I decide to re-build this site.

Update with Next theme.

Just write and think.

我把wordpress的图片都转放在了github上。最近还创建了一个R包的repo,希望能把自己常用的R函数都封装好,便于调用。

建站的时候遇到Your site is having problems building: The value ‘{}’ was passed to a date-related filter that expects valid dates in /_layouts/default.html or one of its layouts.

解决办法:非jekyll生成的站点,添加.nojekyll空文件在repository的根目录下

Google Docs的优点:

1,便于协作,多个人可以同时(注意是同时)编辑一个文件,当然有道云笔记,腾讯文档、office 365也可以。
2,可以追踪修订,版本控制
3,虽然office的功能很强大,但平常用的功能,Google Docs都有
4,不用考虑文件同步的问题,有网就有文件,直接编辑即可,实在不行,拿个PAD连个键盘都行
5,可以用插件,比如PaperPile

PaperPile:

我是来到HK之后才接触PaperPile的,和Google Docs配合,插入文件,简直太爽了。我也用百度搜了下看是否有人介绍 PaperPile,很少有介绍的。

可能的原因是大陆用Google Docs不方便,进而不经常用PaperPile。PaperPile有个编辑公司提到 “科研写作在云端:协同写作工具”。这个形容真的是太贴切了,有了PaperPile,感觉文献管理无敌了。

1,插入文献:随便提供文献的网址、题目等,插入即可,简单的不要不要的

2,文献管理:有PaperPile的Chrome插件,随时搜集你喜欢的文献,如果能下载到PDF,PaperPile一并帮你下载好,当然这个需要占用你的Google Drive的空间。你可以设置文件夹,管理不同的文献

3,文献阅读:有时候文献阅读,需要高亮、备注什么的,要用到PDF阅读器,还要考虑电脑间的文件的同步问题,PaperPile最近开发了自己的PDF阅读器,在PaperPile中设置成它自己的阅读器打开文献即可。这样的好处是,只要有网和浏览器,你就可以随时的阅读和标记。这比Endnote什么的方便多了。

不截图了,就是想推荐这个组合,祝大家科研愉快。

PS:还可以加个Grammarly,检查下英文语法什么的,总之用工具提高自己的生产力呗。

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################

If you instal MCR (MATLAB Compiler Runtime) provided by GISTIC package, may have the following error. This error could disrupt GISTIC.
libGL error: failed to load driver: swrast

If this situation occurs, rename the file found at “ _$MATLAB_ROOT_/sys/os/glnxa64/libstdc++.so.6” to “libstdc++.so.6.old”, This forces MATLAB to use the OS library.

Works for me.

Ref:
https://ww2.mathworks.cn/matlabcentral/answers/296999-libgl-error-unable-to-load-driver-in-ubuntu-16-04-while-running-matlab-r2013b

GISTIC2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers

If we want to cluster samples based on CNV data, a dataframe is needed. However, CNV segments in each sample are not the same. Maybe overlap or distinct. I think CNTools package migh solve this challenge. An example is shown as below. The result is a reduced segment data frame.

BiocManager::install("CNTools")
data("sampleData")
seg <- CNSeg(sampleData)
rdseg <- getRS(seg, by = "region", imput = FALSE, XY = FALSE, what = "mean") 
View(rdseg@rs)

Input dataframe has six columns (“ID”,”chrom”,”loc.start”,”loc.end”,”num.mark”,”seg.mean”) including 277 samples and 54825 segments.

The result can be got from rdseg@rs, like this

Cheers Also, we can use CNRegions from iClusterPlus package. CNregions(sampleData)

Ref:
https://www.rdocumentation.org/packages/CNTools https://rdrr.io/bioc/iClusterPlus/man/CNregions.html
#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责
#Author: Jason
#################################################################

通常数据的维度太大,可视化很难,也不利用模型的学习。有时候拿到数据做个PCA或者tSNE,就是把维度缩小到2维(当然也可以3维),便于看数据之间的关系。在机器学习中,Autoencoder也是一种降维的方式, Autoencoder输入层的神经元的数目和输出层的神经元的数目必须,而且要保证输出的结果尽最大可能和输入的结果一致。

图片来自网络

如上图所示,维度由大到小是decode过程,输出的结果可以从中间层经过encode得到,那么中间层保留了输入层的信息(因为输出层的结果从中间层得到),那么中间层的数据结果,就是降维后的结果,可以拿来做其他事情。 网络的复杂程度根据样本数设计。 无监督的聚类,便可以从中间层开始;数据的学习也可以从中间层开始。当输入层是多组学数据时,中间层便是融合后的结果。

R code

fpkm2tpm = function(fpkm){
  exp(log(fpkm) - log(sum(fpkm)) + log(1e6))
}
tpm = apply(expMatrix, 2, fpkm2tpm)

If the expression matrix has NA value

fpkm2tpm <- function(fpkm){
  tpm <- exp(log(fpkm) - log(sum(fpkm,na.rm=T)) + log(1e6))
  tpm[which(is.na(tpm))] <- 0
  return(tpm)
}

TPMi=( FPKMi / sum(FPKMj ) * 10^6

可变多聚腺苷酸化Alternative Polyadenylation (APA),如下图所示(图片来自参考),在不同的APA信号位点切割,然后添加polyA。这种调控机制属于转录后调控,可能会影响蛋白的序列(发生在编码区),也可能影响蛋白的稳定性(比如非编码区内的miRNA的调控区域)。其实也是可变剪接的一种情况。

常用的软件是Dapars,这个软件现在也有了升级的版本Dapars2。参考: https://github.com/ZhengXia/dapars https://github.com/3UTR/DaPars2 分析流程很相似,Dapars2多了 normalize library sizes 。

第一步:生成Wiggle文件

这一步其实是统计每个点或者区域的覆盖度,便于后续计算,用bedtools统计STAR比对后的结果即可。

genomeCoverageBed -bg -ibam Aligned.sortedByCoord.out.bam -split > Aligned.sortedByCoord.out.wig

第二步: Generate region annotation: DaPars_Extract_Anno.py

这一步需要从bed12格式的文件中,提取远端ployA的位点,进而便于推测近端polyA的位点。 1)作者推荐从UCSC上下载,http://genome.ucsc.edu/cgi-bin/hgTables?command=start,选择bed格式之后,选这whole gene即可。 2)如果你有特定的gtf文件,可以将gtf文件转成bed12格式,先将gtf转成genPred格式,然后再转成bed12格式。http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/上有现成的工具

第三步(Dapars2): Generate mapped reads files for all Samples

这一步是为了 normalize library sizes ,统计每个样本比对上的reads数据,格式如下,与下一步的顺序一致。Dapars2才有这一步。

第四步: Run DaPars

配置文件,运行即可。结果中会告诉ΔDPUI也就是远端APA位点的利用率的差值及显著性,根据这些挑选候选。然后回到IGV上进行查看,如下基因方向从右到左,可以看出来前六个和后三个样本在最后一个外显子上的覆盖度截然不同,不同的地方可能就是发生了APA事件,然后添加polyA。

参考

Weil T T. Post-transcriptional regulation of early embryogenesis[J]. F1000prime reports, 2015, 7. https://hpc.oit.uci.edu/~leil22/DaPars2_Documentation/DaPars2.html

https://www.jianshu.com/p/21b697cec428

#####################################################################
#版权所有 转载请告知 版权归作者所有 如有侵权 一经发现 必将追究其法律责任
#Author: Jason
#####################################################################