Torchaudio dan Aplikasinya
Torchaudio ialah perpustakaan sambungan untuk PyTorch yang menyediakan pelbagai alat pemprosesan audio, termasuk pemuatan data, transformasi audio dan pengekstrakan ciri. Ia membolehkan pembangun menggunakan kuasa PyTorch untuk mengendalikan data audio dan menggunakan pecutan GPU untuk pemprosesan yang cekap. Beberapa aplikasi biasa termasuk pengecaman pertuturan, klasifikasi audio dan penjanaan audio.
Bekerja dengan torchaudio agak intuitif dan mudah. Pertama, kita perlu memasang perpustakaan jika ia belum ada dalam sistem kita. Dengan mengandaikan anda telah memasang PyTorch, pemasangan torchaudio boleh dilakukan menggunakan arahan berikut:
!pip install torchaudio==0.9.0 -f https://download.pytorch.org/whl/cu113/torch_stable.html
Untuk memuatkan fail audio dan mendapatkan semula bentuk gelombang dan kadar sampelnya, kita boleh menggunakan fungsi `torchaudio.load()`:
import torchaudio filename = 'path/to/your/audio/file.wav' waveform, sample_rate = torchaudio.load(filename)
Torchvision dan Aplikasinya
Torchvision ialah satu lagi perpustakaan sambungan untuk PyTorch yang menangani tugas penglihatan komputer dengan menyediakan pelbagai set data imej dan video, serta model dan transformasi yang telah dilatih untuk pemprosesan imej. Ia memudahkan untuk membuat saluran paip klasifikasi, pengesanan dan pembahagian imej yang kompleks.
Untuk memasang torchvision, kita boleh menjalankan arahan berikut:
!pip install torchvision==0.10.0+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html
Torchvision menyediakan model pra-latihan yang boleh digunakan untuk tugas yang berbeza, seperti klasifikasi imej. Kod berikut menunjukkan cara menggunakan model terlatih untuk mengklasifikasikan imej:
import torchvision.models as models
from torchvision import transforms
from PIL import Image
# Load pre-trained model
model = models.resnet18(pretrained=True)
model.eval()
# Process input image
input_image = Image.open('path/to/your/image.jpg')
preprocess = transforms.Compose([
transforms.Resize(256),
transforms.CenterCrop(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
input_tensor = preprocess(input_image)
batch = input_tensor.unsqueeze(0)
# Predict
output = model(batch)
Dalam contoh ini, kami menggunakan pra-latihan ResNet-18 model untuk klasifikasi imej.
Ringkasan
Kesimpulannya, torchaudio and torchvision (versi cu113) ialah perpustakaan berkuasa yang memanjangkan keupayaan PyTorch, menjadikannya mudah untuk berfungsi dengan data audio dan visual. Mereka membenarkan pembangun memanfaatkan ciri pembelajaran mendalam dan pecutan GPU yang disediakan oleh PyTorch untuk menyelesaikan tugas yang kompleks dalam bidang pemprosesan audio dan penglihatan komputer. Kami meneroka pemasangan dan penggunaan perpustakaan ini dan menyentuh beberapa aplikasi biasa, seperti pemuatan data audio dan klasifikasi imej menggunakan model pra-latihan.
Dengan memahami dan menggunakan perpustakaan ini, pembangun boleh meningkatkan keupayaan mereka dengan ketara dalam bekerja dengan data audio dan visual, membuka pintu untuk penyelesaian inovatif dan aplikasi terkini dalam pembelajaran mesin dan kecerdasan buatan.