‘Ole banyak llama yang terjadi: Pertama kali menggunakan Ollama dengan Llama3 | oleh Josh Casswell | April 2024

Last Updated: April 25, 2024By

Untuk berkomunikasi melalui API, kemas permintaan Anda sebagai JSON dan gunakan curl untuk mengirim perintah langsung ke antarmuka.

curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why are so many models called llama?",
"stream": false
}'

Gunakan stream : false untuk meminta model mengembalikan respons sebagai entri tunggal, jika tidak maka model akan mengembalikan setiap kata saat dihasilkan, yang akan sedikit lebih sulit untuk diikuti.

Ada juga paket python (yang bertindak sebagai pembungkus API) dan antarmuka untuk Langchain dan LlamaIndex.

Saya mempunyai beberapa masalah awal dengan file model yang saya unduh melalui Ollama – karena ini merupakan masalah yang canggih, sepertinya ada masalah dengan beberapa token End of String (EOS) yang menyebabkan model terus berputar dan berbicara pada dirinya sendiri (dan secara lucu menyetujuinya dengan dirinya sendiri!) namun hal ini telah diperbaiki di file model lain https://generativeai.pub/ole-lot-of-llama-going-on-first-time-using-ollama-with-llama3-c7a63be33da4?source=rss—-440100e76000—4 dan saya bisa mendownloadnya.

Saya dapat melihat masalah asli dan mengonfirmasi bahwa masalah tersebut telah diperbaiki dengan memeriksa log yang dihasilkan dan melihat model sedang dimuat. Melihat log layanan dapat dilakukan menggunakan alat journalctl.

Untuk melihat 100 entri terakhir gunakan:

journalctl -u ollama -n 100 --no-pager

Atau untuk mengatur penggunaan logging tampilan berkelanjutan:

journalctl -u ollama -f

Untuk memperbaiki masalah model saya, saya membuat Modelfile baru menggunakan pengaturan prompt untuk Llama3 tetapi arahkan ke file GGUF baru.

Saya kemudian dapat membuat dan memberi label pada kombinasi baru ini dengan menjalankan:

ollama create myModel -f myModel_llama4_8B_q4_K_M.txt

Dan selanjutnya memuat model baru menggunakan label terkait:

ollama run myModel

Salah satu gangguan awal yang saya temukan adalah Ollama membiarkan model kehabisan memori. Secara default batas waktu ini adalah 5 menit tetapi mengingat setiap LLM memerlukan waktu beberapa menit untuk memuatnya, maka akan mengganggu jika kemudian dibongkar secara otomatis.

Dua metode yang saya gunakan untuk mengatasi hal ini adalah:

Perubahan lain pada file layanan menggunakan systemctl untuk mengatur waktu keep_alive default menjadi 60 menit. (jangan lupa memuat ulang dan memulai ulang!)

Leave A Comment

you might also like