【Python】OpenAIのモデルで使用する高速BPEトークナイザー「tiktoken」のインストール

スポンサーリンク

【Python】OpenAIのモデルで使用する高速BPEトークナイザー「tiktoken」のインストールについて解説しています。

まずBPE(Byte Pair Encoding)は、自然言語処理(NLP)やテキストの圧縮などの分野で使用されるデータ圧縮アルゴリズムの一種で、テキストデータ内の重複する部分を特定し、それらを短いコードで表現することでデータの圧縮を行うことができます。またテキストデータをトークン化するために使用される手法の一つです。トークン化は、テキストデータを単位ごとに分割し、より小さな部分に分けるプロセスです。

そして「tiktoken(https://github.com/openai/tiktoken)」は、高速にテキストデータをトークン(意味のある単位)に分割する役割を持つものです。

■Python

今回のPythonのバージョンは、「3.9.9」を使用しています。(Windows11)(pythonランチャーでの確認)

■tiktokenをインストールする

tiktokenをインストールを行いますが、今回はpipを経由してインストールを行うので、まずWindowsのコマンドプロンプトを起動します。

pip install tiktoken

起動後、上記のコマンドを入力し、Enterキーを押します。

なお、今回は、pythonランチャーを使用しており、Python Version 3.9.9にインストールを行うために、バージョンの切り替えを行います。

py -3.9 -m pip install tiktoken

切り替えるために、上記のコマンドを入力し、Enterキーを押します。

Defaulting to user installation because normal site-packages is not writeable
Collecting tiktoken
Downloading tiktoken-0.4.0-cp39-cp39-win_amd64.whl (635 kB)
|████████████████████████████████| 635 kB 1.3 MB/s
Collecting regex>=2022.1.18
Downloading regex-2023.6.3-cp39-cp39-win_amd64.whl (268 kB)
|████████████████████████████████| 268 kB 6.4 MB/s
Collecting requests>=2.26.0
Using cached requests-2.31.0-py3-none-any.whl (62 kB)
Collecting certifi>=2017.4.17
Using cached certifi-2023.5.7-py3-none-any.whl (156 kB)
Requirement already satisfied: charset-normalizer<4,>=2 in c:\users\user_\appdata\roaming\python\python39\site-packages (from requests>=2.26.0->tiktoken) (3.1.0)
Collecting urllib3<3,>=1.21.1
Downloading urllib3-2.0.3-py3-none-any.whl (123 kB)
|████████████████████████████████| 123 kB 6.8 MB/s
Requirement already satisfied: idna<4,>=2.5 in c:\users\user_\appdata\roaming\python\python39\site-packages (from requests>=2.26.0->tiktoken) (3.4)
Installing collected packages: urllib3, certifi, requests, regex, tiktoken
Successfully installed certifi-2023.5.7 regex-2023.6.3 requests-2.31.0 tiktoken-0.4.0 urllib3-2.0.3
WARNING: You are using pip version 21.2.4; however, version 23.1.2 is available.
You should consider upgrading via the 'C:\Program Files\Python39\python.exe -m pip install --upgrade pip' command.

Enterキーを押すと、インストールが開始され、上記のように「Successfully installed」と表示されます。これが表示されれば、tiktokenが正常にインストールされたことになります。

なお、今回はtiktokenのバージョン0.4.0をインストールしました。

コメント

タイトルとURLをコピーしました