Transcriptome Assembly - Geoduck Tissue-specific Assembly Ctenidia

Based on a discussion in this GitHub Issue, I’ve initiated some tissue-specific transcriptome assemblies with our current geoduck data.

Job was run on Mox and rsynced to my folder on Gannet.

FastA index files were generated separately via samtools faidx Trinity.fasta (didn’t think about it at the time so did not add to SBATCH script).

SBATCH script:

20190215_geo_trinity_ctenidia.sh (GitHub)


#!/bin/bash
## Job Name
#SBATCH --job-name=trinity_20190215
## Allocation Definition
#SBATCH --account=coenv
#SBATCH --partition=coenv
## Resources
## Nodes
#SBATCH --nodes=2
## Walltime (days-hours:minutes:seconds format)
#SBATCH --time=5-00:00:00
## Memory per node
#SBATCH --mem=120G
##turn on e-mail notification
#SBATCH --mail-type=ALL
#SBATCH --mail-user=samwhite@uw.edu
## Specify the working directory for this job
#SBATCH --workdir=/gscratch/scrubbed/samwhite/outputs/20190215_trinity_geoduck_ctenidia_RNAseq

# Load Python Mox module for Python module availability

module load intel-python3_2017

# Document programs in PATH (primarily for program version ID)

date >> system_path.log
echo "" >> system_path.log
echo "System PATH for $SLURM_JOB_ID" >> system_path.log
echo "" >> system_path.log
printf "%0.s-" {1..10} >> system_path.log
echo ${PATH} | tr : \\n >> system_path.log

data_dir=/gscratch/scrubbed/samwhite/data/P_generosa/RNAseq
trinity_dir=/gscratch/srlab/programs/Trinity-v2.8.3
assembly_stats=assembly_stats.txt

# Run Trinity
${trinity_dir}/Trinity \
--trimmomatic \
--seqType fq \
--max_memory 120G \
--CPU 56 \
--left \
${data_dir}/Geoduck-ctenidia-RNA-1_S3_L001_R1_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-2_S11_L002_R1_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-3_S19_L003_R1_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-4_S27_L004_R1_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-5_S35_L005_R1_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-6_S43_L006_R1_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-7_S51_L007_R1_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-8_S59_L008_R1_001.fastq.gz \
--right \
${data_dir}/Geoduck-ctenidia-RNA-1_S3_L001_R2_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-2_S11_L002_R2_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-3_S19_L003_R2_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-4_S27_L004_R2_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-5_S35_L005_R2_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-6_S43_L006_R2_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-7_S51_L007_R2_001.fastq.gz,\
${data_dir}/Geoduck-ctenidia-RNA-8_S59_L008_R2_001.fastq.gz

# Assembly stats
${trinity_dir}/util/TrinityStats.pl trinity_out_dir/Trinity.fasta \
> ${assembly_stats}

RESULTS

Output folder:

20190215_trinity_geoduck_ctenidia_RNAseq/

Trinity assembly:

20190215_trinity_geoduck_ctenidia_RNAseq/trinity_out_dir/Trinity.fasta(FastA)
- FastA index (samtools faidx):
  - 20190215_trinity_geoduck_ctenidia_RNAseq/trinity_out_dir/Trinity.fasta.fai

Assembly stats:

20190215_trinity_geoduck_ctenidia_RNAseq/assembly_stats.txt




################################
## Counts of transcripts, etc.
################################
Total trinity 'genes':	207696
Total trinity transcripts:	338643
Percent GC: 35.73

########################################
Stats based on ALL transcript contigs:
########################################

	Contig N10: 5209
	Contig N20: 3592
	Contig N30: 2656
	Contig N40: 1958
	Contig N50: 1418

	Median contig length: 407
	Average contig: 798.43
	Total assembled bases: 270382699


#####################################################
## Stats based on ONLY LONGEST ISOFORM per 'GENE':
#####################################################

	Contig N10: 4145
	Contig N20: 2708
	Contig N30: 1877
	Contig N40: 1319
	Contig N50: 917

	Median contig length: 342
	Average contig: 622.29
	Total assembled bases: 129247638

Will likely run the resulting assembly through Trinnotate and Transdecoder to try to get a more refined assembly.

Will also run BUSCO on the refined assembly to evaluate its completeness.

Will also explore combining all of the geoduck tissue-specific transcriptome assemblies using DRAP (mentioned/suggested by Katherine in that GitHub issue).