import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer 

data = pd.read_csv('https://code.s3.yandex.net/datasets/tweets_lemm.csv')#"/datasets/tweets_lemm.csv")
corpus = list(data['lemm_text'])

# создайте n-грамму n_gramm, для которой n=2
count_vect = CountVectorizer(ngram_range=(2, 2)) 
n_gramm = count_vect.fit_transform(corpus) 

print("Размер:", n_gramm.shape)

Результат

Размер: (5000, 32701)
Кота в мешке точно нет. Только словосочетания. Их больше, чем уникальных слов.