Κυριακή, Δεκεμβρίου 28, 2008

Sine wave synthesis speech

Στα εργαστήρια Haskins υπάρχουν δείγματα σύνθεσης φωνής με μια μέθοδο ονομαζόμενη sine wave synthesis speech.

Αφορά την σύνθεση ομιλίας η οποία στηρίζεται στις τρεις πρώτες αρμονικές (καλά κατάλαβα;)

Υπάρχουν και μελέτες αναφορικά με την ανασύνθεση φωνής ομιλητή σε έργα αναγνώρισης του περιεχομένου του λόγου, και τα ευρήματα δείχνουν ότι το περιεχόμενο είναι δυνατόν να επικοινωνηθεί, παρόλο που αρκετά χωροχρονικά δυναμικά χαρακτηριστικά της φωνής χάνονται (κάποια άλλα διατηρούνται).

Την τέταρτη φορά που άκουσα αυτό το δείγμα όντως κατάλαβα τι θέλει να πει το ποιητή!!!


Το πιο εντυπωσιακό εύρημα είναι πως (σε αντιστοιχα πειράματα, βλέπε: Remez, R.E., Rubin, P.E., Pisoni, D.B., & Carrell, T.D. Speech perception without traditional speech cues. Science, 1981, 212, 947-950.) η παραγώμενη "ομιλία" μεταφέρει πληροφορία ακόμα και για την ταυτότητα του ομιλητή!!!! (όχι όμως και όταν αυτή παιχτεί ανάποδα).

P.S. happy new fear

3 σχόλια:

protopap είπε...

Η σύνθεση ομιλίας με ημιτονοειδείς κυματομορφές δεν βασίζεται στις τρεις πρώτες αρμονικές αλλά στις τρεις πρώτες μορφικές συχνότητες. Οι αρμονικές είναι ακέραια πολλαπλάσια της θεμελιώδους συχνότητας της φώνησης, η οποία οφείλεται στην ταλάντωση των φωνητικών πτυχών και γίνεται ακουστή ως ύψος της φωνής. Είναι (σχεδόν) ανεξάρτητη από το είδος του φθόγγου που εκφέρεται αλλά καθορίζει τη νότα στην οποία λέγεται (ή τραγουδιέται). Οι μορφικές είναι οι συχνότητες αντήχησης της φωνητικής οδού (χοντρικά, του φάρυγγα και της στοματικής κοιλότητας), εξαρτώνται από το σχήμα που ορίζουν οι θέσεις των αρθρωτών (άνοιγμα σιαγόνων, άνοιγμα χειλιών, θέση γλώσσας πάνω-κάτω και μπρος-πίσω), και δίνουν στο φθόγγο τη φωνητική του ταυτότητα. Αποτελούν ένα τρόπο συνοπτικής περιγραφής του ακουστικού αποτελέσματος των διαφορετικών σχημάτων που δίνουμε στο στόμα μας προκειμένου να αρθρώσουμε π.χ. ένα «α» (αντί για «ι», «ε» κλπ) ανεξάρτητα από το αν θα το ψιθυρίσουμε ή θα το τραγουδήσουμε σε κάποια νότα.

Phineas Cage είπε...

Εξ όσων διάβασα, οι μορφικές συχνότητες αποκαλούνται formants στα αγγλικά. Σας ευχαριστώ πολύ και για την μετάφραση του όρου!

Για μία ακόμη φορά η προϋπάρχουσα γνώση μου υπερίσχυσε των αναγνωσμάτων. Αν και δεν διάβασα πουθενά για ανάλυση fourier, κάτι με έκανε να πιστευώ ότι μιλούσαμε για αρμονικές...

Για καθαρά εγκυκλοπαιδικούς λόγους, στο ενδεχόμενο που έχουμε σύνθεση φωνής (και όχι ανασύνθεση), χρειάζεται να έχουμε ένα δείγμα ανθρώπινης φωνής για να εξάγουμε τις f0 f1 kai f2 ή απλά μπορούμε να υποθέσουμε έναν μέσο όρο της f0 και έτσι να συνάγουμε τις υπόλοιπες 2 μορφικές συχνότητες;

protopap είπε...

Phineas, η ερώτηση δε βγάζει νόημα. Η F0 είναι η θεμελιώδης συχνότητα της φώνησης (της οποίας οι αρμονικές αποτελούν ακέραια πολλαπλάσια). Σε σύνθεση χωρίς ηχογραφημένο πρότυπο, τη θέτουμε ανάλογα με το φύλο του ομιλητή, τον επιτονισμό της φράσης και το χρονικό σημείο μέσα στη φράση. Οι F1 και F2 είναι οι δύο πρώτες μορφικές που εξαρτώνται από το σχήμα της φωνητικής οδού. Σε σύνθεση χωρίς ηχογραφημένο πρότυπο τις θέτουμε ανάλογα με το φύλο του ομιλητή και τον φθόγγο που θέλουμε να εκφέρεται εκείνη τη στιγμή, με τις κατάλληλες χρονικές περιόδους μετάβασης από τον ένα φθόγγο στον επόμενο. Οι ποσότητες αυτές είναι ανεξάρτητες μεταξύ τους.