Transcriptome Assembly - Geoduck Tissue-specific Assembly Larvae Day5 EPI99 with HiSeq and NovaSeq Data on Mox

I previously assembled and annotated P.generosa larval Day 5 transcriptome (20190318 - mislabeled as Juvenile Day 5 in my previous notebook entries) using just our HiSeq data from our Illumina collaboration. This was a an oversight, as I didn’t realize that we also had NovaSeq RNAseq data. So, I’ve initiated another de novo assembly using Trinity incorporating both sets of data.

Ran a de novo assembly on our HiSeq and NovaSeq data from Hollie’s larval Day 5 EPI 99 sample. This was done for Christian to use in some long, non-coding RNA (lncRNA) analysis.

NovaSeq data had been previously trimmed.

Trimming of the HiSeq data was performed via Trinity, using the --trimmomatic option.

SBATCH script (GitHub):

20190409_trinity_pgen_EPI99_RNAseq.sh

#!/bin/bash
## Job Name
#SBATCH --job-name=trin_epi99
## Allocation Definition
#SBATCH --account=coenv
#SBATCH --partition=coenv
## Resources
## Nodes
#SBATCH --nodes=1
## Walltime (days-hours:minutes:seconds format)
#SBATCH --time=30-00:00:00
## Memory per node
#SBATCH --mem=120G
##turn on e-mail notification
#SBATCH --mail-type=ALL
#SBATCH --mail-user=samwhite@uw.edu
## Specify the working directory for this job
#SBATCH --workdir=/gscratch/scrubbed/samwhite/outputs/20190409_trinity_pgen_EPI99_RNAseq

# Exit script if a command fails
set -e

# Load Python Mox module for Python module availability
module load intel-python3_2017

# Document programs in PATH (primarily for program version ID)
date >> system_path.log
echo "" >> system_path.log
echo "System PATH for $SLURM_JOB_ID" >> system_path.log
echo "" >> system_path.log
printf "%0.s-" {1..10} >> system_path.log
echo "${PATH}" | tr : \\n >> system_path.log

# User-defined variables
reads_dir=/gscratch/scrubbed/samwhite/data/P_generosa/RNAseq/epi_99
threads=28
assembly_stats=assembly_stats.txt

# Paths to programs
trinity_dir="/gscratch/srlab/programs/Trinity-v2.8.3"
samtools="/gscratch/srlab/programs/samtools-1.9/samtools"


## Inititalize arrays
R1_array=()
R2_array=()

# Variables for R1/R2 lists
R1_list=""
R2_list=""

# Create array of fastq R1 files
R1_array=("${reads_dir}"/*_R1_*.gz)

# Create array of fastq R2 files
R2_array=("${reads_dir}"/*_R2_*.gz)

# Create list of fastq files used in analysis
## Uses parameter substitution to strip leading path from filename
for fastq in "${reads_dir}"/*.gz
do
  echo "${fastq##*/}" >> fastq.list.txt
done

# Create comma-separated lists of FastQ reads
R1_list=$(echo "${R1_array[@]}" | tr " " ",")
R2_list=$(echo "${R2_array[@]}" | tr " " ",")


# Run Trinity
${trinity_dir}/Trinity \
--trimmomatic \
--seqType fq \
--max_memory 120G \
--CPU ${threads} \
--left \
"${R1_list}" \
--right \
"${R2_list}"

# Assembly stats
${trinity_dir}/util/TrinityStats.pl trinity_out_dir/Trinity.fasta \
> ${assembly_stats}

# Create gene map files
${trinity_dir}/util/support_scripts/get_Trinity_gene_to_trans_map.pl \
trinity_out_dir/Trinity.fasta \
> trinity_out_dir/Trinity.fasta.gene_trans_map

# Create FastA index
${samtools} faidx \
trinity_out_dir/Trinity.fasta

RESULTS

NOTE: Re-ran this on 20190723 after I realized that I used the EPI 115 files instead of the EPI 99 files.

Took ~14.75hrs to run:

Screencap of Trinity EPI99 runtime on Mox

Output folder:

Trinity FastA:

20190409_trinity_pgen_EPI99_RNAseq/trinity_out_dir/Trinity.fasta

Trinity FastA index file:

20190409_trinity_pgen_EPI99_RNAseq/trinity_out_dir/Trinity.fasta.fai

Trinity Gene Trans Map file:

20190409_trinity_pgen_EPI99_RNAseq/trinity_out_dir/Trinity.fasta.gene_trans_map

Assembly stats (text):

20190409_trinity_pgen_EPI99_RNAseq/assembly_stats.txt

################################
## Counts of transcripts, etc.
################################
Total trinity 'genes':	249799
Total trinity transcripts:	425165
Percent GC: 36.64

########################################
Stats based on ALL transcript contigs:
########################################

	Contig N10: 4381
	Contig N20: 2939
	Contig N30: 2142
	Contig N40: 1598
	Contig N50: 1165

	Median contig length: 381
	Average contig: 710.84
	Total assembled bases: 302222999


#####################################################
## Stats based on ONLY LONGEST ISOFORM per 'GENE':
#####################################################

	Contig N10: 3444
	Contig N20: 2179
	Contig N30: 1492
	Contig N40: 1022
	Contig N50: 704

	Median contig length: 311
	Average contig: 539.32
	Total assembled bases: 134721170

List of input FastQs (text):

20190409_trinity_pgen_EPI99_RNAseq/fastq.list.txt

Geoduck-juvenile-OA-exposure-RNA-EPI-99-1_S4_L001_R1_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-1_S4_L001_R2_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-2_S12_L002_R1_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-2_S12_L002_R2_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-3_S20_L003_R1_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-3_S20_L003_R2_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-4_S28_L004_R1_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-4_S28_L004_R2_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-5_S36_L005_R1_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-5_S36_L005_R2_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-6_S44_L006_R1_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-6_S44_L006_R2_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-7_S52_L007_R1_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-7_S52_L007_R2_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-8_S60_L008_R1_001.fastq.gz
Geoduck-juvenile-OA-exposure-RNA-EPI-99-8_S60_L008_R2_001.fastq.gz